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说 明 : 本 教程 将 图 述 无 监督 特征 学 习 和 深入 学 习 的 主要 观点 。 通 过 学 习 ， 你 也 将 实现 多 个 功能 
学 习 / 深 度 学 习 算 法 ， 能 看 到 它们 为 你 工作 ， 并 学 习 如 何 应 用 /适应 这 些 想 法 到 新 问题 上 。 


本 教程 假定 机 融和 学 习 的 基本 知识 (特别 是 熟 壬 的 监督 学习， 你 辑 回归 ， 柳 度 下 降 的 想法 ) ， 如 果 
你 不 败 悉 这 些 力 法 ， 我 们 建议 你 去 这 里 


机 器 学 习 课程 (http://openclassroom. stanford. edu/MainFolder/CoursePage. php? 
course=MachineLearning) ， 并 先 完 成 第 II，III，IV 章 〈 到 迄 辑 回归 ) 。 
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概述 
以 监督 学 习 为 例 ， 假 设 我 们 有 训练 样本 集 (x :人 J y(*)) ， 那 么 神经 网 络 算法 能 够 提供 一 种 复杂 了 且 
非 线性 的 假设 模型 ha. ral x :) ， 它 具有 参数 W,b ， 可 以 以 此 参数 来 拟 合 我 们 的 数据 

为 了 摘 述 神经 网 络 ， 我 们 先 从 最 简单 的 神经 网 络 讲 起 ， 这 个 神经 网 络 仅 由 一 个 “神经 元 ”构成 ， 以 
下 即 是 这 个 “神经 元 ”的 图 示 : 

KIN 


A3 





hu bl) 


Xi 
+1” 
这 个 “神经 元 ”是 一 个 以 V1; 2, Xa KERE 十 1 为 输入 人 的 运算 单元 ， Al A 


hw ax) = fa Va) = f(X2 Wiri t b). ， 其 中 函数 fe R 被 称 为 “激活 函数 ”。 
在 本 教程 中 ， TA BiU si emoi deg t le Put er fC ) 


f = Truc 


可 以 看 出 ， 这 个 单一 “神经 元 ”的 输入 一 输出 映射 关系 其 实 克 是 一 个 馆 辑 回归 《logistic 


regression) 。 


虽然 本 系列 教程 采用 signmoid 函 数 ， 但 你 也 可 以 选择 双 曲 正切 函数 (tanh) : 
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f(z) = tanh(z) = 5——— 


F 
rn 


re” 


以 下 分 别 是 sigmoid 及 tanh 的 函数 图 像 
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tanh(z) 函数 是 sigmoid 函 数 的 一 种 变 体 ， 它 的 取 值 范围 为 | 一 1, 1| ， 而 不 是 sigmoid 函 数 的 
0, 1j i 


`， 与 其 它 地 方 (包括 0penClassroom 公 开课 以 及 斯 坦 福 大 学 CS229 课 程 ) 不 同 的 是 ， 这 里 我 们 不 
再 信 Tn 二 ] 。 取 而 代 之 ， 我 们 用 单独 的 参数 b won. 


最 后 要 说 明 的 是 ， 有 一 个 等 式 我 们 以 后 会 经 常用 到 : 如 果 选 择 f(z) = 1/(1+ exp(—z))> & 
就 是 sigmoid 函 数 ， 那 么 它 的 导数 就 是 f'(z)— f(z(1—f(z)) 《如 果 选 择 tanh 函 数 ， rn 
导数 就 是 f'(z)—1-(f(z)) ， 你 可 以 根据 sigmoid Cakttanh) 函数 的 定义 自行 推导 这 


式 。 
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神经 网 络 模型 


所 谓 神 经 网 络 驶 是 将 许多 个 单一 “神经 元 ”联结 在 一 起 ， 这 样 ， 一 个 “神经 元 ”的 输出 束 可 以 是 盛 
一 个 “神经 元 ”的 输入 。 例 如 ， 下 图 就 是 一 个 简单 的 神经 网 络 : 


e eo Aw p(X) 


Layer L, 





Layer L, Layer L, 


dL 1S FA a ISO A 2 E "-p1" EAA MEL nio TEI. FZ 
xd £t 3e Ji 221 AE deed) — EU a CASI, ATR RA Ao FP TE 
所 有 节点 组 成 的 一 层 叫 做 隐藏 层 ， 因 为 我 们 不 能 在 训练 样本 集中 观测 到 它们 的 值 。 同 时 可 以 看 
到 ， 以 上 神经 网 络 的 例子 中 有 3 个 输入 单元 〈 偏 置 捍 元 不 计 在 内 ) ，3 个 隐藏 单元 及 一 个 输出 单 
JU o 


我 们 用 Ri 来 表示 网 络 的 层 数 ， 本 例 中 mi — 3 ， 我 们 将 第 | 层 记 为 Lo Tæ 五 ; 是 输入 层 ， 
输出 层 是 L,,，,。 本 例 神经 网 络 有 参数 (W, b) = (W, BY We) p@) ， 其 中 Wis (下 面 
的 式 子 中 用 到 ) 是 第 DOSES 7 单元 与 第 141 层 第 i 单元 之 间 的 联接 参数 〈 其 实 就 是 连接 线 上 
的 权重 ， 注 意 标号 顺序 ) ， pU 是 第 | 十 1 层 第 i 单元 的 偏 置 项 。 因 此 在 本 例 中 ， 

WU eg. WO « 和 Rl1X3 . HEX KARHE fi ELE 76 BI fi EL ER TG CH LAN) , 
因为 它们 总 是 输出 十 1。 同 时 ， 我 们 用 sp 表示 第 上层 的 节操 数 〈 偏 置 单元 不 计 在 内 ) 。 


我 们 用 aO 表示 第 | 层 第 i 单元 的 激活 值 ( 输 出 值 )。 当 1 二 1 时 ， af) y CRES 
i 个 输入 值 ( 输 入 值 的 第 i 个 特征 ) 。 对 于 给 定 参数 集合 Wb ， 我 们 的 神经 网 络 就 可 以 按照 函 
数 hwala) 来 计算 输出 结果 。 本 例 神经 网 络 的 计算 步骤 如 下 : 


ay = f(Wiy ai + Wig aa + Wig 2a + bi) 
ay) = (Wins + Wig x2 + Wag 2a + by) 
ay = f(W zi + Wa2 za + Wig 2a + 65”) 
hwa(z) = ai? = (WP aP + WR ap + WR ag + Bf) 
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我 们 用 LU) 表示 第 | 层 第 i 单元 和 输入 加 权 和 《包括 偏 置 单元 ) ， 比 如 ， 
(2) n (1) (1) I (1). 


这 样 我 们 就 可 以 得 到 一 种 更 简洁 的 表示 法 。 这 里 我 们 将 激活 函数 P(.) 扩展 为 用 向 量 (分 量 的 形 
IV) 来 表示 ， EU fa, 22, zal) — MG), f), f Ga) , 那么 ， 上 面 的 等 式 可 以 更 简洁 地 表 
不 为 : 


z;00 — Whe + bY 

(2 = f(z) 

ZUM — wy Q0 + $0) 
hwa(x) 一 no = f(2) 


我 们 将 上 面 的 计算 步骤 叫 作 前 向 传播 。 回 想 一 下 ， 之 前 我 们 用 QQ) — > 表示 输入 层 的 激活 值 
那么 给 定 第 | 层 的 激活 值 SO 后 ， 第 【十 1 层 的 激活 值 y(t+1) 就 可 以 按照 下 面 步骤 计算 得 到 ; 


2H) 二 wOg V go 


g - f(y 


Xs 
Be 将 


SWIERE, (AAEM — IE ge SET NS Bea aot AAH Ze PEARY CPA aS A Dod REIT PRE OR 


目前 为 止 ， 我 们 讨论 了 一 种 神经 网 络 ， 我 们 也 可 以 构建 万 一 种 结构 的 神经 网 络 〈 这 里 结构 指 的 是 
神经 元 之 间 的 联接 模式 ) ， 也 束 是 包含 多 个 隐藏 层 的 神经 网 络 。 最 种 见 的 一 个 例子 是 nup 层 的 神经 
网 络 ， 第 l1 层 是 输入 层 ， 第 n Ere, PHN | SE [十 1 KAMK. KARA 
下 ， 要 计算 神经 网 络 的 输出 结束 ， 我 们 可 以 按照 之 前 搞 述 的 等 式 ， 按 部 融 班 ， 进 行 前 同 传 播 ， 逐 一 
计算 第 Lo 层 的 所 有 激活 值 ， 然 后 是 第 La AIRE, UER, BP Ln, 层 。 这 是 一 个 前 
饥 神 经 网 络 的 例子 ， 因 为 这 种 联接 图 没有 闭环 或 回路 。 


神经 网 络 也 可 以 有 多 个 输出 单元 。 比 如 ， 下 面 的 神经 网 络 有 两 层 隐藏 层 ， Lo X La ME 
Ls 有 两 个 输出 单元 。 
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Awl) 





Layer L, Layer L, 


要 求解 这 样 的 神经 网 络 ， 需 要 样本 集 (0 yO), J yO e 2 。 如 果 你 想 预测 的 输出 是 多 
个 的 ， 那 这 种 神经 网 络 很 适用 。 比如， 在 医疗 诊断 应 用 中 ， 患 者 的 体征 指标 就 可 以 作为 向 量 的 答 
入 值 ， 而 不 同 的 输出 值 Ys 可 以 表示 不 同 的 疾病 存在 与 否 。) 


中 瑞 文 对 照 

neural networks 神经 网 络 
activation function 激活 函数 
hyperbolic tangent 双 曲 正切 函数 
bias units (mS Jil 

activation 激活 值 

forward propagation 前 问 传 播 


feedforward neural network 前 馈 神 经 网 络 (参照 Mitchel1 的 《机 器 学 习 》 的 翻译 ) 


中 文 译 者 
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假设 我 们 有 一 个 固定 样本 集 {1 yO)... (0 yO), LR m 个 样 例 。 我 们 可 以 用 批量 梯度 下 降 法 来 求 
解 神经 网 络 。 具 体 来 讲 ， —À— 其 代价 函数 为 : 


HW, b; T, y) m > | wax) x yl 


这 是 一 个 (二 分 之 一 的 ) FAT. EO PE m 个 样 例 的 数据 集 ， 我 们 可 以 定义 整体 代价 函数 为 : 


1 T n;—l sr 有 十 
J(W, 6) = D 2, JW, 2 w) 32: 3 YQ?) 








i= i=l] j=1 
j = 1 jo —1 s; 51--1 ( J 
- Bs (ilmse) 332 Y E(w) 
il i= +*=] j=l 


以 上 公式 中 的 第 一 项 JW, b) 7&— 187 AM. BAGEL CH A BE WaT ， 其 目的 是 减 小 权重 的 
幅度 ， 防 止 过 度 拟 合 。 





[ 注 : 通常 权重 衰减 的 计算 并 不 使 用 偏 置 项 SO, URNE J(W, b) 的 定义 中 就 没有 使 用 。 一 般 来 说 ， 将 偏 置 项 包 
含 在 权重 衰减 项 中 只 会 对 最 终 的 神经 网 络 产生 很 小 的 影响 。 如 果 你 在 斯 坦 福 选 修 过 CS229 (机 器 学 习 ) 课程 ， 或 者 在 
YouTube 上 看 过 课程 视频 ， 你 会 发 现 这 个 权重 衰减 实际 上 是 课 上 提 到 的 贝 叶 斯 规则 化 方法 的 变种 。 在 贝 叶 斯 规则 化 方法 
中 ， 我 们 将 高 斯 先 验 概 率 引 入 到 参数 中 计算 MAP 〈 极 大 后 验 ) 佑 计 (而 不 是 极 大 似 然 估计 ) o] 














权重 衰减 参数 X 用 于 控制 公式 中 两 项 的 相对 重要 性 。 在 此 重申 一 下 这 两 个 复杂 函数 的 含义 : JW, bs m, y) 是 针对 单 
个 样 例 计算 得 到 的 方差 代价 函数 ，,J(T7 b) 是 整体 样本 代价 函数 ， 它 包含 权重 衰减 项 。 





以 上 的 代价 函数 经 常 被 用 于 分 类 和 回归 问题 。 在 分 类 问题 中 ， 我 们 用 y — 0 或 1， 来 代表 两 种 类 型 的 标签 (回想 一 
下 ， 这 是 因为 sigmoid 激 活 函 数 的 值 域 为 [0, 1]}， 如 果 我 们 使 用 双 曲 正切 型 激活 函数 ， 那 么 应 该 选用 _1 和 十 1 作为 
标签 》。 对 于 回归 问题 ， 我 们 首先 要 变换 输出 值 域 ( 译 者 注 ， 也 就 是 1D ， 以 保证 其 范围 为 [0, 1] (同样 地 ， 如 果 我 
们 使 用 双 曲 正切 型 激活 函数 ， 要 使 输出 值 域 为 [一 1, 1) 。 


我 们 的 目标 是 针对 参数 W 和 p 来 求 其 函数 J(W, b) 的 最 小 值 。 为 了 求解 神经 网 络 ， 我 们 需要 将 每 一 个 参数 YD 
和 AO 初始 化 为 一 个 很 小 的 、 天 近 夫 的 随机 信 比如 说 ， 使 用 正 态 分 布 Normal (0, e?) 生成 的 随机 值 其 中 设 
置 为 0.01 ) ， 之 后 对 目标 函数 使 用 诸如 批量 梯度 下 降 法 的 最 优化 算法 。 因为 J(W, b) 是 一 个 非 中 函数 ， 梯 度 下 隆 法 
很 可 能 会 收敛 到 局 部 最 优 解 ， 但 是 在 实际 应 用 中 ， 梯 度 下 降 法 通常 能 得 到 令 人 满意 的 结果 。 最 后 ， 需 要 再 次 强调 的 是 ， 
要 将 参数 进行 随机 初始 化 ， 而 不 是 全 部 置 为 0。 如 果 所 有 参数 都 用 相同 的 值 作为 初始 值 ， 那 么 所 有 隐藏 层 单元 最 终 会 
得 到 与 输入 值 有 关 的 、 —— 对 于 所 有 p wi 都 会 取 相 同 的 值 ， 那 么 对 于 任何 输入 x MEA: 


a) 二 a) 二 ae 二 ... )。 随 机 初始 化 的 目的 是 使 对 各 KARL. 























PRE BREED BE IK RTA OF AOS ae MW Bp 进行 更 新 : 


y _ yr 9 
ij 


pP = a» — a- o J (W, b) 





其 中 g 是 学 习 速 率 。 其 中 关键 步骤 是 计算 俩 导数 。 我 们 现在 来 讲 一 下 反 回 传播 算法 ， 它 是 计算 俩 导数 的 一 种 有 效 方 
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我 们 首先 来 讲 一 下 如 何 使 用 反 向 传播 算法 来 计算 pwr IW, b; y) 和 aim (Wb; 2, y), > 这 两 项 是 单个 样 例 
(ary) 的 代价 函数 JW, bae, y) 的 偏 导数 。 一 旦 我 们 求 出 该 偏 导数 ， 就 可 以 推导 出 整体 代价 函数 TW, b) 的 偏 导 
Hs 





" b : 0 i) 1 
T 5 JW, b) — = = JOY, b; alt ) y | AW? 


IWS m r OW? 
BU b) = = > -9 JW b; xz, ) 
op bd 


以 上 两 行 公式 稍 有 人 不同， 第 一 行 比 第 二 行 多 出 一 项 ， 是 因为 权重 桶 减 是 作用 于 全 ”而 不 是 b. 





反 向 传播 算法 的 思路 如 下 : 给 定 一 个 样 例 (zx, yy)， 我 们 首先 进行 “前 向 传导 ”运算 ， 计 算出 网 络 中 所 有 的 激活 值 ， 包 
插 aya (m) 的 输出 值 。 之 后 ， 针 对 第 | 层 的 每 一 个 节点 i， 我 们 计算 出 其 “ 残 差 ” 5 中， 该 残 差 表明 了 该 节点 对 最 终 
输出 值 的 残 差 产 生 了 多 少 影响 。 对 于 最 终 的 输出 节点 ， 我 们 可 以 直接 算出 网 络 产 生 的 激活 值 与 实际 值 之 间 的 差距 ， 我 们 
"—— 对 于 隐藏 单元 我 们 如 何 处 理 呢 ? 我 们 将 基于 节点 〈 译 者 注 : 第 

1 十 1 层 节点 ) 残 差 的 加 权 平均 值 计算 5 中， 这 些 节 点 以 qO 作为 输入 。 下 面 将 给 出 反 向 传导 算法 的 细节 : 












































L 进行 前 馈 传导 计算 ， 利 用 前 向 传导 公式 ， 得 到 Ly La, . .. 直到 输出 层 Lu, HARA. 
2， 对 于 第 mi 层 (输出 层 ) 的 每 个 输出 单元 i 我 们 恨 据 以 下 公式 计算 残 差 


(n) _ 9 dy. gry fr) 
" ag sare lu — ha! = (ue — af?) - GP?) 


3 Xx 1—ni —1,ni-2,ni —3,...,2 的 各 个 层 ， 第 | 层 的 第 i 个 节点 的 残 差 计算 方法 如 下 ; 


5O — (x Wt Doy ) '(2 2) 


[ 译 者 注 : 完整 推导 过 程 如 下 : 


7 : zu 
JW, bs zy) = Fam OV, bia) sos 














gira} _ 
i ~ A yl 
Oz; 








ae ae - z jn e NUN | c— 
= 5; ^gger = 8 = 6 | é e 1 3 Wii = ap ET J= = " Wii 1g! B f fA -| 
根据 递 推 过 程 ， 将 Rj 一 1 5 nu 的 关系 答 换 为 上 5 [pd 的 关系 ， 可 以 得 到 上 面 的 结果 : 
gE = 5 Wt UT '(z 2) 


以 上 的 逐步 反问 化 推 求 导 的 过 程 束 是 “反问 传播 ”算法 的 本 意 所 在 。] 
4. 计算 我 们 需要 的 偏 导 数 ， 计 算 方法 如 下 : 
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m (1) (+1) 
Af n . | == 2 $ 
au J(W,b; x,y) =a; ð; 
IW; 
Ó 


—_J(W,b; x,y) = 68. 
Ob | ' 


最 后 ， 我 们 用 和 矩阵 -向 量 表示 法 重 写 以 上 算法 。 我 们 使 用 “@” 表示 向 量 乘积 运算 符 ( 在 Matlab 或 0ctave 里 用 “.*” 
示 ， 也 称 作 阿达 马 乘积 ) 。 若 a— bec: Wa; — bicj。 在 上 一 个 教程 中 我 们 扩展 了 f(.) 的 定义 ， 使 其 包含 向 量 运 
算 ， 这 里 我 们 也 对 偏 导数 f) 也 做 了 同样 的 处 理 〈 于 是 又 有 f'([23, 20, za) = Uf a, ea, f (23) - 








那么 ， 反 回 传 播 算法 可 表示 为 以 下 几 个 步骤 : 


L 进行 前 馈 传 导 计算 ， 利 用 前 向 传导 公式 ， 得 到 Ly La.. .直到 输出 层 Lp, 的 激活 值 。 
2， 对 输出 层 (第 mi 层 ) ， 计 算 : 


5o0 = —(y — a) e f(2™) 
3. WE l= n ln hn —3,...,2 HAE, We: 
50 一 (WO) 5) e f'(2) 
4. 计算 最 终 需 要 的 俩 导数 信 : 
Vw J(W, b; z, y) = OY (al), 
VyoJ(W, b; z, y) = ge). 





实现 中 应 注意 ;在 以 上 的 第 2 步 和 第 3 步 中 ， 我 们 需要 为 每 一 个 i TE pt). 假设 f(z) 是 sigmoid 函 数 ， 并 
且 我 们 已 经 在 前 同 传 导 运算 中 得 到 了 at. 那么 ， 使 用 我 们 早先 推导 出 的 站 (zz) 表 达 式 ， 就 可 以 计算 得 到 


PRP) = (1 -aPy 





最 后 ， 我 们 将 对 梯度 下 降 算法 做 个 全 面 总 结 。 在 下 面 的 伪 代 码 中 ，A V7 是 一 个 与 矩阵 pr 维度 相同 的 矩阵 ， 
Ap) 是 一 个 与 A) 维度 相同 的 向 量 。 注 意 这 里 “入 全 ”是 一 个 矩阵 ， 而 不 是 “A 与 WO RR. FE RI 
实现 批量 梯度 下 降 法 中 的 一 次 迭代 








lL 对 于 所 有 bo AW .9. ApD ,一 0 《设置 为 全 零 矩阵 或 全 零 向 量 ) 
a. 使 用 反问 传播 算法 计算 V wo J(W, b: T, y) 和 V yo J(W, b: T, y): 
bp， 计算 AW := AW + Vio J(W,b; zy) 

c. 计算 ABO :一 Ab + Vi JOW, b; x, y) 

3. 更 新 权重 参数 : 


wo WO o (= AW o) L AW d 
m | 





A) D a E as] 


TTL 





WME, RMI PAS BEB BRA ENE ROR DUT PRL J(W, b) 的 什 ， 进 而 求解 我 们 的 神经 网 络 。 


中 英文 对 照 


反问 传播 算法 Backpropagation Algorithm ai bbt. com [1 D E B E] 0. OT 
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(批量 ) 梯度 下 降 法 (batch) gradient descent 
(整体 ) 代价 函数 (overall) cost function 

HÆ squared-error 

HJH Æ average sum-of-squares error 

规则 化 项 regularization term 

权重 衰减 weight decay 

偏 置 项 bias terms 

由 叶 斯 规则 化 方法 Bayesian regularization method 
高 斯 先 验 概率 Gaussian prior 

极 大 后 验 估 计 MAP 

极 大 似 然 估计 maximum likelihood estimation 

激活 国 数 activation function 

双 曲 正切 函数 tanh function 

JE K% non-convex function 

Kai e476 hidden (layer) units 

对 称 失 效 symmetry breaking 

学 习 速 率 learning rate 

BIER forward pass 

假设 值 hypothesis 

残 差 error term 

加 权 平 均值 weighted average 

前 馈 传 导 feedforward pass 

阿达 马 乘 积 Hadamard product 

前 向 传播 forward propagation 
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榜 度 检验 与 高 级 优化 


From Ufldl 











众所周知 ， 反 回 传 播 算法 很 难 调试 得 到 正确 结 末 ， 尤 其 是 当 实 现 程序 存在 很 多 难于 发 现 的 bug 时 。 举 例 来 说 ， 索 引 的 缺 位 错误 Coff-by-one error) 会 
导致 只 有 部 分 层 的 权重 得 到 训练 ， 再 比如 起 记 计 算 偏 置 项 。 这 些 错误 会 使 你 得 到 一 个 看 似 十 分 合理 的 结果 (但 实际 上 比 正确 代码 的 结 末 要 差 )。 
此 ， 但 从 计算 结果 上 来 看 ， 我 们 很 难 发 现代 码 中 有 什么 东西 遗漏 了 。 本 节 中 ， 我 们 将 介绍 一 种 对 求 导 结 果 进 行 数值 检验 的 方法 ， 该 方法 可 以 验证 求 导 
代码 是 否 正确 。 男 外 ， 使 用 本 节 所 述 求 导 检验 方法 ， 可 以 帮助 你 提升 写 正确 代码 的 信心 。 











缺 位 错误 0ff-by-one error) 举例 说 明 ， 比 如 for 循 环 中 循环 mm 次， 正确 应 该 是 for(i= 1; i <= m; i++) BAHETRA, RIR 
for(i= 1; i< m; i++) 这 束 是 缺 位 错误 。 











假设 我 们 想 要 最 小 化 以 9 为 自 变 量 的 目标 函数 J(9)。 假设 J : RR WO c 跟 。 在 一 维 的 情况 下 ， 一 次 选 代 的 梯度 下 降 公式 是 


d 
j := f — azg (0). 





再 假设 我 们 已 经 用 代码 实现 了 计算 ul (0) 的 函数 g(0), RERIEH 0 :— 0 一 ag(0) KEMER PMA. MART g 的 实现 是 否 
正确 呢 ? 


回忆 导数 的 数学 定义 : 
d . 4(8-F e) — J(0 — €) 
357 (9) i zm De 


那么 对 于 任意 9 值 ， 我 们 都 可 以 对 等 式 左 边 的 导数 用 : 


J(8 -- EPSILON) — J(0 — EPSILON ) 
2 x EPSILON 


来 近似 。 





实际 应 用 中 ， 我 们 常 将 EPSILON 设 为 一 个 很 小 的 常量 ， 比 如 在 10-4 数量 级 (虽然 EPSILON 的 取 值 范围 可 以 很 大 ， 但 是 我 们 不 会 将 它 设 
得 太 小 ， 比 如 10-20， 因 为 那 将 导致 数值 舍 入 误差 。) 





给 定 一 个 被 认为 能 计算 乞 ,J(6) 的 函数 g(9)， 我 们 可 以 用 下 面 的 数值 检验 公式 
p m (9+ EPSILON) — J(9 — EPSILON) 
gue 2 x EPSILON | 
计算 两 端 是 否 一 样 来 检验 函数 是 否 正确 。 





上 式 两 端 值 的 接近 程度 取决 于 J 的 其 体形 式 。 但 是 在 假定 EPSILON = 10-3 的 情况 下 ， 你 通常 会 发 现 上 式 左右 两 端 至 少 有 4 位 有 效 数 字 是 一 样 的 
(通常 会 更 多 ) 。 





Jut. ZE p e RR” 是 一 个 向 量 而 非 一 个 实数 (那么 束 有 mR 个 参数 要 学 习 得 到 ) ， 并 且 J: R m Re MAMAN PIT BRAG HW, b "I 
以 想象 为 把 参数 W, b 组 合 扩展 成 一 个 长 向 量 9。 现在 我 们 将 求 导 检 验方 法 推广 到 一 般 化 ， 即 g 是 一 个 向 量 的 情况 。 


假设 我 们 有 一 个 用 于 计算 2 IO) RK g;(9)， 我 们 想 要 检验 g; 是 否 输出 正确 的 求 导 结果 。 我 们 定义 gG+) = 9 4 EPSILON x gp Jtt 


是 第 7 个 基 向 量 〈( 维 度 和 g 相同 ， 在 第 行 是 “1” 而 其 他 行 是 “0”) . MA, gG-O JU g 几乎 相同 ， 除 了 第 i 行 元 素 增加 了 EPSILON: 
Ki, p= — 9 EPSILON x ej; 得 到 的 第 i tW f EPSILON. AERIANA i 检查 下 式 是 否 成 立 ， 进 而 验证 g,(O) 的 正确 
性 : 





4 人 SEESITLON - 


当 用 反射 传播 算法 求解 神经 网 络 时 ， 正 确 算法 实现 会 得 到 : 
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V wb (W, b) = (BAw®) | Aw e 


V,oJ(V, 5b) ^ Ab. 


TTL 








以 上 结果 与 反 回 传播 算法 中 的 最 后 一 段 伪 代码 一 致 ， 都 是 计算 梯度 下 降 。 为 了 验证 柳 度 下 降 代码 的 正确 性 ， 使 用 上 述 数值 检验 方法 计算 JOW, b) 的 


导数 ， 然 后 验证 (LAW) 十 和 W 与 LADO 是 否 能 够 给 出 正确 的 求 导 结果 。 





迄今 为 止 ， 我 们 的 讨论 都 集中 在 使 用 梯度 下 降 法 来 最 小 化 .J{9)。 如 果 你 已 经 实现 了 一 个 计算 J(0) 和 VoJ(0) 的 函数 ， 那 么 其 实 还 有 更 精妙 的 算 
法 来 最 小 化 .J(b)。 举 例 来 说 ， 可 以 想象 这 样 一 个 算法 ， 它 使 用 梯度 下 降 ， 并 能 够 自动 调整 学 习 速率 ce， 以 得 到 合适 的 步 长 值 ， 最 终 使 9 能 够 快速 收 
敛 到 一 个 局 部 最 优 解 。 还 有 更 妙 的 算法 ， 比 如 可 以 寻找 一 个 Hessian 和 矩阵 的 近似 ， 得 到 最 佳 步 长 值 ， 使 用 该 步 长 值 能 够 更 快 地 收敛 到 局 部 最 优 (和 牛顿 
法 类 似 ) 。 此 类 算法 的 详细 讨论 已 超出 了 这 份 讲义 的 范围 ， 但 是 L-BFGS 算 法 我 们 以 后 会 有 论述 〈 另 一 个 例子 是 共 簿 梯度 算法 ) 。 你 将 在 编程 练习 里 使 
用 这 些 算法 中 的 一 个 。 使 用 这 些 高 级 优化 算法 时 ， 你 需要 提供 关键 的 函数 ， 即 对 于 任 一 个 g， 需 要 你 计算 出 J(0) 和 VgJ(0)。 之后， 这 些 优化 算法 
会 自动 调整 学 习 速 率 / 步 长 值 ae 的 大 小 〈 并 计算 Hessian 近 似 矩 阵 等 等 ) 来 自动 寻找 J(8) 最 小 化 时 9g 的 值 。 诸 如 L-BFGS 和 共生 梯度 算法 通常 比 梯度 
下 降 法 快 很 多 。 





























HH ge XT HE 

off-by-one error WS, 
bias term (hm EJ 

numerically checking 数值 检验 
numerical roundoff errors 数值 舍 入 误差 
significant digits 有 效 数 字 
unrolling 组 合 扩 展 

learning rate 学 习 速 率 
Hessian matrix Hessian p 
Newton’ s method 牛顿 法 
conjugate gradient 440i RE 


step-size 步 长 值 
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= is 、 BTA | 
目 编 码 算 法 与 稀 焉 性 
From Ufldl 
目前 为 止 ， 我 们 已 经 讨论 了 神经 网 络 在 有 监督 学 习 中 的 应 用 。 在 有 监督 学 习 中 ， 训 练 样本 是 有 类 别 标签 的 。 现 在 假设 我 们 只 有 一 个 没有 带 类 别 标签 的 


训练 样本 集合 {7% rO 10... .} ， 其 中 gO eR 。 自 编码 神经 网 络 是 一 种 无 监督 学 习 算法 ， 它 使 用 了 反 向 传播 算法 ， 并 让 目标 值 等 于 输入 
值 ， 比 如 yO) — x 由 。 下 图 是 一 个 自 编码 神经 网 络 的 示例 。 














hwel x) 





Layer L, Layer L, 





Layer L, 





自 编码 神经 网 络 尝试 学 习 一 个 hwala) ee x 的 函数 。 换 句 话 说 ， 它 尝试 逼近 一 个 恒 等 函 数 ， 从 而 使 得 输出 @ 接近 于 输入 a 。 恒 等 函数 虽然 看 上 去 
不 太 有 学 习 的 意义 ， 但 是 当 我 们 为 自 编码 神经 网 络 加 入 某 些 限制 ， 比 如 限定 隐藏 神经 元 的 数量 ， 我 们 就 可 以 从 输入 数据 中 发 现 一 些 有 趣 的 结构 。 举 例 
来 说 ， 假 设 某 个 自 编码 神经 网 络 的 输入 r 是 一 张 10 x 10 图 像 ( 共 100 个 像素 ) 的 像素 灰 度 值 ， 于 是 mn 二 100 ， 其 隐藏 层 L。 中 有 50 个 隐藏 神经 
元 。 注 意 ， 输 出 也 是 100 维 的 y c M09 。 由 于 只 有 50 个 隐藏 神经 元 ， 我 们 人 迫使 自 编码 神经 网 络 去 学 习 输 入 数据 的 压缩 表示 ， 也 就 是 说 ， 它 必须 从 50 
维 的 隐藏 神经 元 激活 度 向 量 gO) 上 gano 中 重 构 出 100 维 的 像素 灰 度 值 输 入  。 如 果 网 络 的 输入 数据 是 完全 随机 的 ， 比 如 每 一 个 输入 m; 都 是 一 个 跟 
其 它 特 征 完全 无 关 的 独立 同 分 布 高 斯 随机 变量 ， 那 么 这 一 压缩 表示 将 会 非常 难 学 习 。 但 是 如 果 输 入 数据 中 隐 含 着 一 些 特定 的 结构 ， 比 如 某 些 输入 特征 
是 彼此 相关 的 ， 那 么 这 一 算法 就 可 以 发 现 输入 数据 中 的 这 些 相关 性 。 事 实 上 ， 这 一 简单 的 自 编码 神经 网 络 通常 可 以 学 习 出 一 个 跟 主 元 分 析 (PCA) 绪 
非常 相似 的 输入 数据 的 低 维 表示 。 




















我 们 刚才 的 论述 是 基于 隐藏 神经 元 数量 较 小 的 假设 。 但 是 即使 隐藏 神经 元 的 数量 较 大 《可 能 比 输入 像 系 的 个 数 还 要 多 ) ， 我 们 仍然 通过 给 目 编码 神经 
网 络 施加 一 些 其 他 的 限制 条 件 来 发 现 输入 数据 中 的 结构 。 有 具体 来 说 ， 如 果 我 们 给 隐藏 神经 元 加 入 黎 下 性 限制 ， 那 么 目 编码 神经 网 络 即 使 在 隐藏 神经 元 
数量 较 多 的 情况 下 仍然 可 以 发 现 输入 数据 中 一 些 有 趣 的 结构 。 

黎 斑 性 可 以 被 简单 地 解释 如 下 。 如 果 当 神经 元 的 输出 接近 于 1 的 时 候 我 们 认为 它 被 激活 ， 而 输出 接近 于 0 的 时 候 认 为 它 被 抑制 ， 那 么 使 得 神经 元 大 部 分 
的 时 间 都 是 被 抑制 的 限制 则 被 称 作 黎 焉 性 限制 。 这 里 我 们 假设 的 神经 元 的 激活 函数 是 sigmoid 函 数 。 如 果 你 使 用 tanp 作 为 激活 函数 的 话 ， 当 神经 元 输出 
为 -1 的 时 候 ， 我 们 认为 神经 元 是 被 抑制 的 。 


注意 到 ay ”表示 隐藏 神经 元 7 的 激活 度 ， 但 是 这 一 表示 方法 中 并 未 明确 指出 哪 一 个 输入 zx 带 来 了 这 一 激活 度 。 所 以 我 们 将 使 用 aO) (a) 来 表示 在 
给 定 输入 为 x 情况 下 ， 自 编码 神经 网 络 隐藏 神经 元 j 的 激活 度 。 进一步 ， 让 


1 TÜ . 
Foe (2) ¢ (8) 
P m 2, [s ur | 


表示 隐藏 神经 元 3 的 平均 活跃 度 《〈 在 训练 集 上 取 平 均 ) 。 我 们 可 以 近似 的 加 入 一 条 限制 








pj = P, 
其 中 ， p EARS We PRET OMB IE Cu o = 0.05 ) 。 换 句 话 次， 我 们 想 要 让 隐藏 神经 元 j 的 平均 活跃 度 接近 0.05。 为 了 
满足 这 一 和 条件， 隐藏 神 经 元 的 活跃 度 必 须 接近 于 0。 
为 了 实现 这 一 限制 ， 我 们 将 会 在 我 们 的 优化 目标 函数 中 加 入 一 个 额外 的 惩 玉 因子， 而 这 一 惩 姑 因子 将 惩罚 那些 Pj 和 有 显著 不 同 的 情况 从 而 使 得 
隐藏 神经 元 的 平均 活跃 度 保持 在 较 小 范围 内 。 惩 加 因 子 的 具体 形式 有 很 多 种 合理 的 选择 ， 我 们 将 会 选择 以 下 这 一 种 : 








lp 
1-6; 





2 plog — + (1 —p) log 


ji : 





ERI 
Ef: 
BH 





这 里 ， Sq 是 隐藏 层 中 隐藏 神经 元 的 数量 ， 而 索引 7 KARR aa BE d RERTU. WR RTA (KL divergence) 比较 熟悉 ， 这 一 惩 
子 实际 上 是 基于 它 的 。 于 是 惩罚 因子 也 可 以 被 表示 为 
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X KL(pl|P)), 
j=1 


其 中 KL(p||p;) = plog £ + (1 — p) log =F 是 一 个 以 _P 为 均值 和 一 个 以 p; KIE RAAR A BELA eZ [e] ET o 种 标准 
的 用 来 测量 两 个 分 布 之 间 差 异 的 方法 。《〈 如 条 你 :没有 见 过 相对 入 不 用 担心 ， 所 有 你 需要 知道 的 内 容 都 会 被 包含 在 这 份 笔记 之 中 。 








这 一 惩罚 因子 有 如 下 性 质 ， 当 ô =p 时 KL(p|p) = 0 ， 并 且 随 着 o; 与 p 之 间 的 差异 增 大 而 单调 递增 。 举 例 来 说 ， 在 下 图 中 ， 我 们 设 定 
p 一 0.2 并 且 画 出 了 相对 炳 值 KL(p||p;) 随 着 o; 变化 的 变化 。 


ü ü17 oF i} 2d 05 ü if üB 03 
Awersge ncbvabon of hidden unit 











debo) D ae p ASEM BME, MA p; ORAL, FAURE A GES eI Too) 。 所 以 ， 最 小 化 这 一 
惩罚 因子 具有 使 得 p, SEXT p 的 效果 。 现在 ， 我 们 的 总 体 代价 函数 可 以 表示 为 





Jeparse( W, b) = J(W, b) 4 BL Kuala) 


at J(W, b) 如 之 前 所 定义 ， m f bs Em j 因 子 的 权重 。 py 项 则 也 (间接 地 ) 取决 于 Wb ， 因 为 它 是 隐藏 神经 元 j 的 平均 激活 度 ， 而 
藏 层 神经 元 的 激活 度 取决 于 W, b 














为 了 对 相对 燃 进 行 导数 计算 ， 我 们 可 以 使 用 一 个 易于 实现 的 技巧 ， 这 只 需要 在 你 的 程序 中 稍 作 改 动 即 可 。 具 体 来 说 ， 前 面 在 后 同 传 播 算法 中 计算 第 二 
KB Cl=2) 更 新 的 时 候 我 们 已 经 计算 了 


= P- (Sowa) r (2), 


现在 我 们 将 其 换 成 


人 =z ] 一 pi 9 
6) = Ws? 8 (-2 +. z) FA). 
(È i i pi l-—pi UE 


PLAT LA Yo 











有 一 个 需要 注意 的 地 方 就 是 我 们 需要 知道 p; 来 计算 这 一 项 更 新 。 所 以 在 计算 任何 神经 元 的 后 同 传播 之 前 ， 你 需要 对 所 有 的 训练 样本 计算 一 裔 前 向 传 
播 ， 从 而 获取 平均 激活 度 。 如 果 你 的 训练 样本 可 以 小 到 被 整个 存 到 内 存 之 中 《对 于 编程 作业 来 说 ， 通 单 如 此 ) ， 你 可 以 方便 地 在 你 所 有 的 样本 上 计算 
前 回 传 播 并 将 得 到 的 激活 度 存 入 内 存 并 且 计 算 平 均 激 活 度 。 然后 你 就 可 以 使 用 事先 计算 好 的 激活 度 来 对 所 有 的 训练 样本 进行 后 向 传播 的 计算 。 如 果 你 
的 数据 量 太 大 ， 无 法 全 部 存 入 内 存 ， 你 就 可 以 扫 过 你 的 训练 样本 并 计算 一 次 前 同 传播 ， 然 后 将 获得 的 结果 累积 起 来 并 计算 平均 激活 度 D; ( 当 某 一 个 
Bii In] Pe FR YZ 当 果 中 的 激活 度 ay ”被 用 于 计算 平均 激活 度 记 之 后 就 可 以 将 此 吉 果 删除 》。 然 后 当 你 完成 平均 激活 上 度 p 的 计算 之 后 ， 你 需要 重新 对 
Sm 次 前 向 传播 从 而 可 以 对 其 进 行 后 同 传 播 的 计算 。 对 于 后 一 种 情况 ， 你 对 每 一 个 训练 样本 需要 计算 两 次 前 问 传 播 ， 所 以 在 计算 上 的 
效率 会 各 低 一 些 。 


证 明 上 面 算法 能 达到 梯度 下 降 效 果 的 完整 推导 过 程 不 再 本 教程 的 范围 之 内 。 sat onc. eee HR 
么 你 就 会 对 目标 函数 Jsparset Wb) 做 梯度 下 降 。 使 用 梯度 验证 方法 ， 你 可 以 自己 来 验证 梯度 下 降 算 法 是 否 正 确 。 
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FY AMG B S 5 a Ul 5 25 


From Ufldl 


WATE int) Ages, BARE B Af doe SUR eR OR, XEZEBH EVE SUISESI SA. ERATE Xx 10K CHIn-1000 上 训练 目 编码 
a AP. ARAWA, ARRERA POST A FY eR ET TE SE: 


100 
P rna): 
j-1 


BOTHE RT LG NAL, BEAL LTE} LDR HA. FFE CLT ERY ERT SO CHIME). BERRY 
是 ，al23) 可 看 作 输入 z 的 非 线性 特征 。 不 过 还 有 个 问题 : Fb REA Re ig BOAR A? (通俗 一 点 说 ， 隐 藏 单元 i 要 找 个 什么 样 的 特 
征 ? ) 。 这 里 我 们 必须 给 z 加 约束 ， 和 否则 会 得 到 平凡 解 。 若 假设 输入 有 范 数 约束 ||z| — 25199 r? « 1， 则 可 证 〈 请 读者 自行 推导 ) 令 隐藏 单元 得 到 最 
大 激励 的 输入 应 由 下 面 公式 计算 的 像素 Tj 给 出 ( 共 需 计算 100 个 像素 ，j=1,…, 100) : 


Hio 
Wa 


WP 
“FRI ESM ARAN. EETA- UEM. FOR AR SEER ZY, SB oA SRP TIE AY BIE teat BA BA ELK . 


151 3841 TI ZEE as LOOM Bei Pu. — TUUM Ra Rr LOOM CE FE] SH — BET i ER zo OG] AR HL LOOW AR, BAY EU 
体会 这 些 隐 藏 单元 学 出 来 的 整体 效果 是 什么 样 的 。 











ge 





SRA Foot EI iiss CL004 etic, ZELOXIOR AMA EVI 〉 进 行 上 述 可 视 化 处 理 之 后 ， 结 果 如 下 所 示 : 


"CN ATEM 
ZNIE AME IPFE 
PT 













E 
"nd - | 
Aga” TF. 
ELS. IgE EM 
上 图 的 每 个 小 方块 都 给 出 了 一 个 〈 带 有 有 界 范 数 的 ) BAR Rae, "en p XX0048 Es o | Bde — PRE Rh. FATA AB, ATRIIS ee TCAE 
会 了 在 图 像 的 不 同位 置 和 方向 进行 边缘 检测 。 

显而易见 ， 这 些 特征 对 物体 识别 等 计算 机 视觉 任务 是 十 分 有 用 的 。 知 将 其 用 于 其 他 输入 域 〈 如 音频 ) ， 该 算法 也 可 学 到 对 这 些 输入 域 有 用 的 表示 或 特征 。 
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Bi tit H a AS ait FF Sy UE 


From Ufldl 


下 面 是 我 们 在 推导 sparse autoencoder 时 使 用 的 符号 一 览 表 : 


符号 含义 
T 训练 样本 的 输入 特征 ，x cg. 
y 输出 值 /目标 值 ， 这 里 oy 可 以 是 向 量 . fEautoencoder, y = T. 


(2) yO) 88 宇 个 训练 样本 
hwa(x) 输入 为 x 时 的 假设 输出 ， 其 中 包含 参数 Wb. 该 输出 应 当 与 目标 值 y 具有 相同 的 维 数 . 
Wi 连接 第 B j ÉGURUB | 十 1 层 d Yonne 























po 第 1 十 1 层 i PNET. WHOA RRS | 层 偏 置 单元 和 第 1 十 1 E i 单元 的 参数 . 
0 参数 同 量 ， 可 以 认为 该 同 量 是 通过 将 参数 Wb 组 合 展 开 为 一 个 长 的 列 同 量 而 得 到 . 
网 络 中 第 层 i 单元 的 激活 〈 输 出 ) 值 . 
(1) 
ai 另外 ， 由 于 Ly 层 是 输入 层 ， 所 以 ah = ry 
fC) 激活 函数 ， 本 文中 我 们 使 用 f (2) = tanh(z). 
P 第 4 层 d 单元 所 有 输入 的 加 权 和 ， 因 此 有 ah = f(O} 
a 学 习 率 
Si Bl 层 的 单元 数目 〈 不 包含 偏 置 单元 ) . 
ni 网 络 中 的 层 数 ， 通常 La 层 是 输入 层 ，L, 层 是 输出 层 . 
A 权重 衰减 系数 . 
T 对 于 一 个 autoencoder， 该 符号 表示 其 输出 值 ， 亦 即 输入 值 m 的 重 构 值 ， 与 hwala) 含义 相同 . 
p Wi. "I EHE tis we SUE FD ae ite BE 
Pi (sparse autoencoder'B) 隐藏 单元 g 的 平均 激活 值 . 
B (sparse autoencoder 目 标 函 数 中 ) Bibi [EL Ti] UA AL Be. 
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Exercise:Sparse Autoencoder 


From Ufldl 
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ma 2.2 Step 2: Sparse autoencoder objective 
m 2.3 Step 3: Gradient checking 
mn 2.4 Step 4: Train the sparse autoencoder 
ma 2.5 Step b: Visualization 

» 3 Results 


Download Related Reading 


= sparseae reading. pdf 
(http://nlp. stanford. edu/ socherr/sparseAutoencoder 201 1new. pdf) 

= sparseae exercise. pdf (http://www. stanford. edu/class/cs294a/cs294a 2011- 
assignment. pdf) 


Sparse autoencoder implementation 


In this problem set, you will implement the sparse autoencoder algorithm, and show 
how it discovers that edges are a good representation for natural images. (Images 
provided by Bruno Olshausen. ) The sparse autoencoder algorithm is described in the 
lecture notes found on the course website. 


In the file sparseae exercise. zip 

(http: //ufldl. stanford. edu/wiki/resources/sparseae exercise. zip) , we have provided 
some starter code in Matlab. You should write your code at the places indicated in 
the files (“YOUR CODE HERE’). You have to complete the following files: sampleIMAGES. m, 
sparseAutoencoderCost.m, computeNumericalGradient.m. The starter code in train.m shows how 
these functions are used. 


Specifically, in this exercise you will implement a sparse autoencoder, trained with 
SX8 image patches using the L-BFGS optimization algorithm. 


A note on the software: The provided .zip file includes a subdirectory minFunc 
with 3rd party software implementing L-BFGS, that is licensed under a Creative 
Commons, Attribute, Non-Commercial license. If you need to use this software for 
commercial purposes, you can download and use a different function (fminlbfgs) that 
can serve the same purpose, but runs 3x slower for this exercise (and thus is less 
recommended). You can read more about this in the Fminlbfgs Details page. 
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Step 1: Generate training set 


The first step is to generate a training set. To get a single training example x, 
randomly pick one of the 10 images, then randomly sample an 8X8 image patch from 
the selected image, and convert the image patch (either in row-major order or 
column-major order; it doesn' t matter) into a 64-dimensional vector to get a 
training example » c n 


Complete the code in sampleIMAGES. m. Your code should sample 10000 image patches and 
concatenate them into a 64X10000 matrix. 


To make sure your implementation is working, run the code in “Step 1” of train. m. 
This should result in a plot of a random sample of 200 patches from the dataset. 


Implementational tip: When we run our implemented samplelmages(), it takes under 5 
seconds. If your implementation takes over 30 seconds, it may be because you are 
accidentally making a copy of an entire 512X512 image each time you're picking a 
random image. By copying a 512X512 image 10000 times, this can make your 
implementation much less efficient. While this doesn’ t slow down your code 
significantly for this exercise (because we have only 10000 examples), when we scale 


to much larger problems later this quarter with 109 or more examples, this will 
significantly slow down your code. Please implement sampleIMAGES so that you aren t 
making a copy of an entire 512X512 image each time you need to cut out an 8x8 image 
patch. 


Step 2: Sparse autoencoder objective 


Implement code to compute the sparse autoencoder cost function J, arse (WV, b) (Section 


3 of the lecture notes) and the corresponding derivatives of J with respect to 


sparse 


the different parameters. Use the sigmoid function for the activation function, 


f(z) — ———————. [n particular, complete the code in sparseAutoencoderCost. m. 
| + e`? 


m" 


The sparse autoencoder is parameterized by matrices pyro) c spr Xse, Wwe c M53 
vectors p c om p c R However, for subsequent notational convenience, we 


will “unroll” all of these parameters into a very long parameter vector 0 with S1So 


+ S984 + So + ss elements. The code for converting between the (WO) wR pO 502) 


and the 9 parameterization is already provided in the starter code. 


Implementational tip: The objective J (W,b) contains 3 terms, corresponding 


sparse 
to the squared error term, the weight decay term, and the sparsity penalty. You're 
welcome to implement this however you want, but for ease of debugging, you might 
implement the cost function and derivative computation (backpropagation) only for 
the squared error term first (this corresponds to setting ^ = B = 0), and 
implement the gradient checking method in the next section to first verify that this 
code is correct. Then only after you have verified that the objective and derivative 


calculations corresponding to the squared error term are working, add in code to 
ww ai bbt. com [1 E EL EI C] I CH 
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compute the weight decay and sparsity penalty terms and their corresponding 
derivatives. 


Step 3: Gradient checking 


Following Section 2.3 of the lecture notes, implement code for gradient checking. 


Specifically, complete the code in computeNumericalGradient.m. Please use EPSILON = 10 
as described in the lecture notes. 


We ve also provided code in checkNumericalGradient.m for you to test your code. This 
R 。 。 。 F. . a F 
code defines a simple quadratic function f. RÄ MR given by h(x) = 4, + 32x12 


and evaluates it at the point x = (4,10)!. It allows you to verify that your 
numerically evaluated gradient is very close to the true (analytically computed) 
gradient. 


After using checkNumericalGradient. m to make sure your implementation is correct, next 
use computeNumericalGradient. m to make sure that your sparseAutoencoderCost.m is computing 
derivatives correctly. For details, see Steps 3 in train.m. We strongly encourage you 
not to proceed to the next step until you’ ve verified that your derivative 
computations are correct. 


Implementational tip: If you are debugging your code, performing gradient 
checking on smaller models and smaller training sets (e.g., using only 10 training 
examples and 1-2 hidden units) may speed things up. 


Step 4: Train the sparse autoencoder 


Now that you have code that computes J and its derivatives, we're ready to 


sparse 


minimize Jsparse with respect to its parameters, and thereby train our sparse 


autoencoder. 


We will use the L-BFGS algorithm. This is provided to you in a function called 
minFune (code provided by Mark Schmidt) included in the starter code. (For the 
purpose of this assignment, you only need to call minFunc with the default 
parameters. You do not need to know how L-BFGS works.) We have already provided code 
in train.m (Step 4) to call minFunc. The minFunc code assumes that the parameters to 
be optimized are a long parameter vector; so we will use the " 0^ parameterization 


rather than the ” (WO), w2, bb)” parameterization when passing our parameters 
to it. 


Train a sparse autoencoder with 64 input units, 25 hidden units, and 64 output 

units. In our starter code, we have provided a function for initializing the 

parameters. We initialize the biases pe to zero, and the weights we to random 
i | 


6 6 
| a. | as 
Y ni | Hout | ji V ni | Tout | | 
where n;, is the fan-in (the number of inputs feeding into a node) and nout is the 


numbers drawn uniformly from the interval 


fan-in (the number of units that a node feeds into). 
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The values we provided for the various parameters (^, B, p, etc.) should work, but 
feel free to play with different settings of the parameters as well. 


Implementational tip: Once you have your backpropagation implementation correctly 
computing the derivatives (as verified using gradient checking in Step 3), when you 


are now using it with L-BFGS to optimize Jsparse W, b), make sure you re not doing 


gradient-checking on every step. Backpropagation can be used to compute the 
derivatives of J (W,b) fairly efficiently, and if you were additionally 


sparse 
computing the gradient numerically on every step, this would slow down your program 
significantly. 


Step 5b: Visualization 
After training the autoencoder, use display network. m to visualize the learned 


weights. (See train.m, Step 5.) Run "print -djpeg weights. jpg to save the visualization 
to a file “weights. jpg (which you will submit together with your code). 


Results 


To successfully complete this assignment, you should demonstrate your sparse 
autoencoder algorithm learning a set of edge detectors. For example, this was the 
visualization we obtained: 





Our implementation took around 5 minutes to run on a fast computer. In case you end 
up needing to try out multiple implementations or different parameter values, be 
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sure to budget enough time for debugging and to run the experiments you 11 need. 


Also, by way of comparison, here are some visualizations from implementations that 
we do not consider successful (either a buggy implementation, or where the 
parameters were poorly tuned): 


ME 


J 
T 


- 
F 
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当 使 用 学 习 算 法 时 ， 一 段 更 快 的 代码 通常 意味 看 项 目 进 展 更 快 。 例 如 ， 如 果 你 的 学 习 算 法 需要 花费 20 分 钟 运 
行 完 成 ， 这 意味 痢 你 每 个 小 时 能 “ 壬 试 ”3 个 新 主意 。 但 是 假如 你 的 程序 需要 20 个 小 时 来 运行 ， 这 意味 着 你 一 
天 只 能 “ 笠 试 ”一 个 新 主意 ， 因 为 你 震 要 论 费 这 么 长 时 间 来 等 等 程序 的 反馈 。 对 于 后 者 ， 假 如 你 可 以 提升 代 
人 码 的 效 座 让 其 只 需要 运行 10 个 小 时 ， 那 么 你 的 效率 雳 不 多 提升 一 倍 。 





矢量 化 编程 是 近 局 算法 速度 的 一 种 有 效 方法 。 为 了 提升 特定 数值 运 握 操作 (如 矩阵 相 习 、 和 窍 阵 相 加 、 和 窍 阵 - 
器 量 乘法 等) 的 速度 ， 数 值 计算 和 并 行 计算 的 研究 人 员 已 经 努力 了 几 十 年 。 矢 量化 编程 的 思想 束 是 尽量 使 用 
这 些 被 高 度 优 化 的 数值 运算 操作 来 实现 我 们 的 学 习 算 法 。 








Blu EHE, egy 和 g e spn tl 为 向 量 ， 需 要 计算 。_ ply ， 那 么 可 以 按 以 下 方式 实现 (使 用 
Matlab) : 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 


' 7 =z + theta(i) * x(i); 


Bi 





第 二 段 程序 代码 不 仅 简单 ， 而 且 运 行 速 度 更 快 。 


iu. —^"Zm5Matlab/Octavefé£FE BUTS Ji: 


代码 中 尽 可 能 避免 显 式 的 for 循 环 。 


上 面 的 第 一 段 代 码 使 用 了 一 个 显 式 的 for 循 环 。 通 过 不 使 用 for 循 环 实现 相同 功能 ， 可 以 显 考 提升 运行 速度 。 
对 Mat1lapb/0octave 代 码 进 行 天 量化 的 工作 很 大 一 部 分 集中 在 避免 使 用 for 循 环 上 ， 因 为 这 可 以 使 得 
Matlab/0ctave 更 多 地 利用 代码 中 的 并 行 性 ， 同 时 其 解释 硕 的 计算 开销 更 小 。 








天 于 编写 代码 的 策略 ， 开 始 时 你 会 党 得 天 量化 代码 更 难 编写 、 阅 读 和 调试 ， 但 你 需要 在 编码 和 调试 的 便捷 性 
与 运行 时 间 之 间 做 个 权衡 。 因 此 ， 刚 开始 编写 程序 的 时 候 ， 你 可 能 会 选择 不 使 用 太 多 矢量 化 技巧 来 实现 你 的 
算法 ， 并 验证 它 是 否 正 确 《〈 可 能 只 在 一 个 小 问题 上 验证 ) 。 在 确定 它 正 确 后 ， 你 可 以 每 次 只 矢量 化 一 小 段 代 
码 ， 并 在 这 段 代 码 之 后 暂停 ， 以 验证 矢量 化 后 的 代码 计算 结果 和 之 前 是 否 相同 。 最 后 ， 你 会 有 望 得 到 一 份 正 
确 的 、 经 过 调试 的 、 天 量化 且 有 效率 的 代码 。 

















一 旦 对 矢量 化 常见 的 方法 和 技巧 熟悉 后 ， 你 将 会 友 现 对 代码 进行 和 天 量化 通常 并 不 太 费 幼 。 和 天 量化 可 以 使 你 的 
代码 运行 的 更 快 ， 而 且 在 茶 些 情况 下 ， 还 简化 了 你 的 代码 。 
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我 们 想 用 批量 梯度 上 升 法 对 logistic 回 归 分 析 模 型 进行 训练 ， 其 模型 如 下 : 
1 


hola) = 1 + exp{ 一 x)’ 


让 我 们 遵从 公开 课程 视频 与 CS229 教 学 讲义 的 符号 规范 ， 设 zo 二 1， 于 是 x © RU. ge RIL Oy 为 截 距 。 假 设 我 们 有 nm 个 训练 样本 [CcG), yO ) 
Nu (a0) yy) )}， 而 批量 梯度 上 升 法 的 更 新 法 则 是 : 0 :二 9 十 o Vol (8) ,这 里 的 L(8) 是 对 数 似 然 函数 ，VoL(b) 是 其 导 函 数 。 
LE: 下 文 的 符号 规范 与 《公开 课程 视频 > 或 < 教学 讲义 CS229: 机 器 学 习 > 中 的 相同 ， 详 细 内 容 可 以 参见 公开 课程 视频 或 教学 讲义 #1 
http://cs229. stanford. edu/] 
于 是 ， 我 们 需要 如 下 计算 梯度 : 

Vol() = DD (y? — ho(a)) 2"), 

E 

我 们 用 Matlab/0ctave 风 格 变量 x 表示 输入 数据 构成 的 样本 矩阵 ，x(:, D 代表 第 i 个 训练 样本 rz 人，x (j,i) 就 代表 wp ORRE: 第 i 个 训练 样本 向 量 的 第 j 个 


JUR) 。 同 样 ， 用 Matlab/0ctave 风 格 变 量 y 表 示 由 训练 样本 集合 的 全 体 类 别 标号 所 构成 的 行 回 量 ， 则 该 癌 量 的 第 i 个 元 素 y (i) 就 代表 上 式 中 的 
79 E (0, 1]-  GESOEHUGR AJPUEEESUSURCS229 FES IEA TA, AEE x Hee TIU AN f RTT FE BGA IEA, E y c Rie n B RI 
o ) 




















EQ 


E 





D FERE RARA RE, SERA, ERNIE: 
% 代码 1 
grad = zeros (n+1, 1); 
for i-l:m, 
' h = sigmoid(theta' *x(:, i)); 
| temp = y(i) = h; 
i for j-1:n*l, 
grad(j) = grad(j) + temp * x(j, i) ; 
' end; 





TRE AY for HAA iu EI ERAS IS TT AEH Se. DAR ee ST, COM EESTI OP el et, TOR ERAT I 

eo RN iv ii iv ee sa 
grad = zeros(n-*l, 1): 

for i-1l:m, 
' grad = grad + (y(i) - sigmoid(theta’ *x(:,i)))* x(:, i); 





但 是 ， 或 许可 以 向 量化 得 更 彻底 些 。 如 果 去 除 for 循 环 ， 我 们 就 可 以 显著 地 改善 代码 执行 效率 。 特 别 的 ， 假 定 b 是 一 个 列 辣 量 ，A 是 一 个 和 矩阵， 我 们 用 以 下 
两 种 方式 来 计算 Axb: 


‘grad = zeros (n+1, 1 
for i-l:m, 
! grad = grad + b(i) * AC:, i); % WH SIA AAC, i) *b (i) 








‘end; 
% 和 抢 阵 -向 量 乘法 运算 的 高 效 代码 
grad = A*b; 


eee eee ee eee ew eee ee ee ee ee ee ee ee ee ee Ee ee eee ee ee ee ee ee ee ee eee ee eee ee we ee ee ee ee ee ee ee ee ee ee ee ee eee ee ee eee eee ee ee ee ee ee ee eee ee ee ee ee ee ee ee we ee ee ee ee ee ee ee eee ee eee eee 


我 们 看 到 ， 代 码 2 是 用 了 低 效 的 for 循 环 语句 执行 梯度 上 升 ( 译 者 注 : 原文 是 下 降 ) 运算 ， 将 b(i) 看 成 (y (i) - sigmoid(theta’*x(:,i))), A@mMx, 34i] 
就 可 以 使 用 以 下 高 效率 的 代码 : 


Fr----------- -1 





| 





这 里 我 们 假定 Matlab/0ctave 的 sigmoid(z) 函数 接受 一 个 同 量 形式 的 输入 z， 依 次 对 输入 同 量 的 每 个 元 素 施 行 sigmoid 函 数 ， 最 后 返回 运算 结果 ， 因 此 
sigmoid (z) 的 输出 结果 是 一 个 与 z: 有 相同 维度 的 癌 量 。 


当 训 练 数据 集 很 大 时 ， 最 终 的 实现 〈 译 者 注 : 代码 3) 充分 及 挥 了 Matlab/0ctave 高 度 优化 的 数值 线性 代数 库 的 优势 来 进行 矩阵 -向 量 操作 ， 因 此 ， 比 起 之 
前 代码 要 高 效 得 多 。 


想 采 用 疝 量化 实现 并 非 易 事 ， 通 常 需 要 周密 的 思考 。 但 当 你 熟练 掌握 向 量化 操作 后 ， 你 会 发 现 ， 这 里 面 有 固定 的 设计 模式 (对 应 少量 的 向 量化 技巧 ) ， 可 
以 灵活 运用 到 很 多 不 同 的 代码 片段 中 。 
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在 本 节 ， 我 们 将 引入 神经 网 络 的 向 量化 版 本 。 在 前 面 关 于 神经 网 络 介 绍 的 章节 中 ， 我 们 已 经 给 出 了 一 个 部 分 向 量化 的 实现 ， 它 在 
一 次 输入 一 个 训练 样本 时 是 非常 有 效率 的 。 下 边 我 们 看 看 如 何 实现 同时 处 理 多 个 训练 样本 的 算法 。 具 体 来 讲 ， 我 们 将 把 正 同 传 
播 、 反 加 传播 这 两 个 步骤 以 及 黎 芷 特征 集 学 习 扩展 为 多 训练 样本 版 本 。 














Contents 


a 1 正 向 传播 

。2 反 向 传播 

。3 稀疏 自 编码 网 络 
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。5 中 文 译 者 


IE] fe $8 


考虑 一 个 三 层 网 络 (一 个 输入 层 、 一 个 隐 舍 层 、 以 及 一 个 输出 层 ) ， 并 且 假 定 x 是 包含 一 个 单一 训练 样本 7 的 c gan BSEC. DUI 
器 量化 的 正 癌 传播 步 又 如 下 : 





22) — wOg 4 pn 

a) 一 f (G9) 

ZU! = pe) ,@) | pi?) 
| ' (3 py (3): 
hw(r)— a® 一 f e )) 





这 对 于 单一 训练 样本 而 言 是 非常 有 效 的 一 种 实现 ， 但 是 当 我 们 需要 处 理 m 个 训练 样本 时 ， 则 需要 把 如 上 步骤 放 入 一 个 for 循 环 中 。 











更 具体 点 来 说 ， 参 照 逻 辑 回归 向 量化 的 例子 ， 我 们 用 Matlab/0ctave 风 格 变量 xz 表示 包含 输入 训练 样本 的 矩阵，x(, i) 代 表 第 ?个 训 
练 样本 。 则 x 正 同 传播 步 又 可 如 下 实现 : 








TOF 1=] :nm, 
' 22 = Wl * x(:,i) + bl; 
' a2 = f(z2): 


' Zo = W2 * a2 + b2; 
:hl P1295 











这 个 for 循 环 能 否 去 掉 呢 ?对 于 很 多 算法 而 言 ， 我 们 使 用 癌 量 来 表示 计算 过 程 中 的 中 辐 结 果 。 例 如 在 前 面 的 非 向 量化 实现 
中 ，z2, a2, z3 都 是 列 癌 量 ， 分 别 用 来 计算 隐 层 和 输出 层 的 激励 结果 。 为 了 充分 利用 并 行 化 和 高 效 窍 阵 运 算 的 优势 ， 我 们 希望 算法 
能 同时 处 理 多 个 训练 样本 。 让 我 们 先 暂 时 忽略 前 面 公 式 中 的 pl1 和 b2 (把 它们 设置 为 0) ， 那 么 可 以 实现 如 下 : 








z2 = Wl * x; 
us = f (z2): 
73 = W2 * a2; 
h s 023) 





在 这 个 实现 中 ，z2, a2, ZA EERE, BES VII EREEAOSE MEERA FEMS -PVNBREE AS SER IA] SE LIN S FER ANDE. HPAI 

HEDERA DFS Te CE B22), BRIERE ee ES AEREN NRR E TOR Eh IE, TEX 

例子 中 ，a2 束 成 了 一 个 s。X m 的 矩阵 (ss 是 网 络 第 二 层 中 的 神经 元 数 ，m 是 训练 样本 个 数 )。 和 窍 阵 a2 的 物理 含义 是 ， 当 第 i 个 训练 样 
ww ai bbt. com TOHO0O0000 
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本 x(:i) 输 入 到 网 络 中 时 ， 它 的 第 i 列 就 表示 这 个 输入 信号 对 隐 人 神经 元 (网 络 第 二 层 ) 的 激励 结 


在 上 面 的 实现 中 ， 我 们 假定 激活 函数 f(z) 接受 矩阵 形式 的 输入 z， 并 对 输入 算 阵 按 列 分 列 施 以 激活 函数 。 需要 注意 的 是 ， 你 在 实 
Wir Cz) 的 时 候 要 尽量 多 用 Matlab/0ctave 的 矩阵 操作 ， 并 尽量 避免 使 用 for 循 环 。 假定 激活 函数 采用 Sigmoid 函 数 ， 则 实现 代码 如 下 
所 示 : 

















% 低 效 的 、 非 癌 量化 的 激活 函数 实现 
‘function output = unvectorized_f (z) 
output = zeros (size (z) ) 

for i=l:size(z, 1), 

| for j-l:size(z, 2), 

i output (i, j) = esz); 
|; end; 

end; 

end 


% 高 效 的 、 向 量化 激活 函数 实现 
function output = vectorized f(z) 


output = 1./(1*exp(-2)) ; %“./” 在 Matlab 或 0ctave 中 表示 对 矩阵 的 每 个 元 素 分 别 进 行 除 法 操作 


最 后 ， 我 们 上 面 的 正 同 传播 回 量 化 实现 中 忽略 了 bl 和 b2， 现 在 要 把 他 们 包含 进来 ， 为 此 我 们 需要 用 到 Matlab/0ctave 的 内 建 函 
数 repmat : 


% 正 问 传播 的 向 量化 实现 


72 = Wl * x + repmat (b1, 1, m) ; 
a2 = f (22): 

Z3 = W2 * a2 + repmat (b2, 1, m) ; 
h = f(z3) 


repmat (bl, 1, m) H3 SEA E, CHEM bs nth, AHR AO BME: 


| | | 
bl bl --- bl 


这 M X mHJABEE. EMW * x 相 加 ， 束 等 于 是 把 Wi * x 和 矩阵 〈 译 者 注 : Bx VIA Ele, PoEÀWwl * x 代表 两 个 
EREI, AREE ADNE) 的 每 一 列 加 上 pl。 如果 不 熟悉 的 话 ， 可 以 参考 Matlab/0ctave 的 帮助 文档 获取 更 多 信息 ( 输 
A “help repmat”)。rampat 作 为 Matlab/0ctave 的 内 建 函 数 ， 运 行 起 来 是 相当 高 效 的 ， 远 远 快 过 我 们 日 己 用 for 循 环 实现 的 效果 。 











反问 传播 


现在 我 们 来 描述 反 疝 传播 癌 量化 的 思路 。 在 阅读 这 一 市 之 前 ， 强 烈 建 议 各 位 仔细 阅读 前 面 介绍 的 正 同 传播 的 例子 代码 ， 确 保 你 已 
经 完全 理解 。 下 边 我 们 只 会 给 出 反问 传播 问 量 化 实现 的 大 致 纲要 ， 而 由 你 来 完成 具体 细节 的 推导 ( 见 癌 量 化 练习 〉。 




















对 于 监督 学 习 ， 我 们 有 一 个 包含 mn 个 带 类 别 标号 样本 的 训练 集 {(z(0 yO), (a y) OTARDA, RIRE 
Ay) = x(i) 即 可 ， 但 这 里 考虑 的 是 更 一 般 的 情况 。) 


假定 网 络 的 输出 有 ss 维 ， 因 而 每 个 样本 的 类 别 标号 向 量 就 记 为 gj 名 c 和 R3。 在 我 们 的 Matlab/0ctave 数 据 结构 实现 中 ， 把 这 些 输 出 
按 列 合 在 一 起 形成 一 个 Matlab/0ctave 风 格 变 量 y， 其 中 第 i 列 y(:, i) By. 





现在 我 们 要 计算 标 度 项 yyin J (W, byEIN pod (W b). SEP REBEL, MAILR E c RUP RR IAP RRE, OSEE 
每 个 训练 样本 (x, y)， 我 们 可 以 这 样 来 计算 : 
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-(y — a9) e f(2) 
52) 一 ((w 9750 ) ü f(z), 

Vwa J(W, b; x, y) = 5 (a)?, 

Vw J(W, b; x, y) = 59 (aH). 


TEXX Heke an Xt PAS E S 3208] URIS OFRE: 其 结果 还 十 一 个 同 量 ) 。 为 了 摘 述 简单 起 见 ， 我 们 这 里 暂时 忽略 对 参 
Heb) 的 求 导 ， 不 过 在 你 真正 实现 反 向 传播 时 ， 还 是 需要 计算 关于 它们 的 导数 的 。 





假定 我 们 已 经 实现 了 癌 量 化 的 正 同 传 播 方 法 ， 如 前 面 那 样 计算 了 矩阵 形式 的 变量 z2，a2，z3 和 hn， 那 么 反问 传播 的 非 回 量化 版 本 可 
如 下 实现 : 


zeros (size (Wl1) ): 

gradW2 zeros(size(W2)); 

for i-l:m, 

deltas = -(y(:,i) = h(:,i)) . fprime(z3(:,i)); 
: delta2 = W2'*delta3C,1) .* fprime(z2(5,1)) ; 


| gradW2 


= gradW2 + delta3*a2(:,i)'; 
gradWl = gradWl + delta2*al(:, i)’; 
end 


在 这 个 实现 中 ， 有 一 个 for 循 环 。 而 我 们 想 要 一 个 能 同时 处 理 所 有 样本 、 且 去 除 这 个 for 循 坏 的 回 量化 版 本 。 





为 做 到 这 一 点 ， 我 们 先 把 问 量 delta3 和 delta2 玲 换 为 矩阵 ， 其 中 每 列 对 应 一 个 训练 样本 。 我 们 还 要 实现 一 个 函数 fprime (z)， 访 函数 
接受 窍 阵 形式 的 输入 z， 并 且 对 和 矩阵 的 按 元 素 分 列 执行 了 站 (.)。 这 样 ， 上 面 for 循 环 中 的 4 行 Mat1ab 代 码 中 每 行 邦 可 单独 向 量化 ， 以 一 
行 新 的 〈 回 量化 的 ) Matlab 代 码 葵 换 它 ( 不 再 需要 外 层 的 for 循 环 》。 








在 同 量化 练习 中 ， 我 们 要 求 你 目 己 去 推导 出 这 个 算法 的 问 量 化 版 本 。 如 果 你 已 经 能 从 上 面 的 摘 述 中 了 解 如 何 去 做 ， 那 么 我 们 强烈 
建议 你 去 实践 一 下 。 虽 然 我 们 已 经 为 你 准备 了 反 回 传播 的 癌 量 化 实现 提示 ， 但 还 是 至 励 你 在 不 看 提示 的 情况 下 目 己 去 推导 一 下 。 




















i ibi EJ Sr f$ DX] 2% 


fiiio EJ 2j 3 d 28 rp Qr — 1 UP Pe TH, A ER AON Pes, ERREA CHUXBUO 目标 激活 率 bp 。 其 实 
TEXTE VILE EBT cn PedESE, EAD CARAS T wie Mui], "Ul P rm: 


PL " 1 一 
2 (Yw | s(-£ 7 2 f. 
AL p 工 一 应 / 


在 非 癌 量化 的 实现 中 ， 计 算 代 码 如 下 : 











% fs 4 Ty Delta 
for i-l:m, 


' delta2 - (W2’ *delta3(:,i) + beta*sparsity delta). fprime(z2(:,1i)); 





但 在 上 面 的 代码 中 ， 仍 旧 含 有 一 个 需要 在 整个 训练 集 上 运行 的 for 循 坏 ， 这 里 delta2 是 一 个 列 问 量 。 


作为 对 照 ， 回 想 一 下 在 同 量 化 的 情况 下 ，delta2 现 在 应 该 是 一 个 有 m 列 的 矩阵 ， 分 别 对 应 看 m 个 训练 样本 。 还 要 注意 ， 黎 焉 惩 避 

项 sparsity delta 对 所 有 的 训练 样本 一 视 同仁 。 这 意味 着 要 问 量化 实现 上 面 的 计算 ， 只 需 在 构造 4elta2 时 ， 人 往 和 矩阵 的 每 一 列 上 分 别 

加 上 相同 的 值 即 可 。 因 此 ， 要 同 量 化 上 和 面 的 代码 ， 我 们 只 需 简 单 的 用 repmat 命 令 把 sparsity_delta 加 a 到 delta2 的 每 一 列 上 即 可 ( 译 者 
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VE: 这 里 原文 摘 述 得 不 是 很 清楚 ， 看 似 应 加 到 上 面 代 码 中 delta2 行 等 号 右边 第 一 项 ， 即 W2"*delta3 上 ) o 
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Exercise:Vectorization 


From Ufldl 


Contents 


» | Vectorization 
= 1.1 Support Code/Data 
mn 1.2 Step 1: Vectorize your Sparse Autoencoder Implementation 
m 1.3 Step 2: Learn features for handwritten digits 


Vectorization 


In the previous problem set, we implemented a sparse autoencoder for patches taken 
from natural images. In this problem set, you will vectorize your code to make it 
run much faster, and further adapt your sparse autoencoder to work on images of 
handwritten digits. Your network for learning from handwritten digits will be much 
larger than the one you'd trained on the natural images, and so using the original 
implementation would have been painfully slow. But with a vectorized implementation 
of the autoencoder, you will be able to get this to run in a reasonable amount of 
computation time. 


Support Code/Data 


The following additional files are required for this exercise: 


= MNIST Dataset (Training Images) (http://yann. lecun. com/exdb/mnist/train-images- 
idx3-ubyte. gz) 

= MNIST Dataset (Training Labels) (http://yann. lecun. com/exdb/mnist/train-labels- 
idxl-ubyte. gz) 

ma Support functions for loading MNIST in Matlab 


Step 1: Vectorize your Sparse Autoencoder Implementation 


Using the ideas from Vectorization and Neural Network Vectorization, vectorize your 
implementation of sparseAutoencoderCost.m. In our implementation, we were able to 
remove all for-loops with the use of matrix operations and repmat. (If you want to 
play with more advanced vectorization ideas, also type help bsxfun. The bsxfun 
function provides an alternative to repmat for some of the vectorization steps, but 
is not necessary for this exercise). A vectorized version of our sparse autoencoder 
code ran in under one minute on a fast computer (for learning 25 features from 10000 
8x8 image patches). 


(Note that you do not need to vectorize the code in the other files.) 
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Step 2: Learn features for handwritten digits 


Now that you have vectorized the code, it is easy to learn larger sets of features 
on medium sized images. In this part of the exercise, you will use your sparse 
autoencoder to learn features for handwritten digits from the MNIST dataset. 


The MNIST data is available at [1] (http: //yann. lecun. com/exdb/mnist/) . Download 
the file train-images-idx3-ubyte.gz and decompress it. After obtaining the source 
images, you should use helper functions that we provide to load the data into Matlab 
as matrices. While the helper functions that we provide will load both the input 
examples x and the class labels y, for this assignment, you will only need the input 
examples x since the sparse autoencoder is an unsupervised learning algorithm. (In a 
later assignment, we will use the labels y as well.) 


The following set of parameters worked well for us to learn good features on the 
MNIST dataset: 


visibleSize = 28*28 

hiddenSize = 196 

isparsityParam = 0. 1 

‘lambda = 3e-3 

beta = 3 

patches = first 10000 images from the MNIST dataset 


After 400 iterations of updates using minFunc, your autoencoder should have learned 
features that resemble pen strokes. In other words, this has learned to represent 
handwritten characters in terms of what pen strokes appear in an image. Our 
implementation takes around 15-20 minutes on a fast machine. Visualized, the 
features should look like the following image: 
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If your parameters are improperly tuned, or if your implementation of the 
autoencoder is buggy, you may get one of the following images instead: 





If your image looks like one of the above images, check your code and parameters 
again. Learning these features are a prelude to the later exercises, where we shall 


see how they will be useful for classification. 


Vectorization | Logistic Regression Vectorization Example | Neural Network Vectorization | 


Exercise:Vectorization 
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al 


主 成 分 分 析 (PCA) 是 一 种 能 够 极 大 提升 无 监督 特征 学 习 速 度 的 数据 降 维 算法 。 更 重要 的 是 ， 理 解 PCA 算 法 ， 
对 实现 白化 算法 有 很 大 的 帮助 ， 很 多 算法 痢 先 用 白化 算法 作 预 处 理 步 又 。 


假设 你 使 用 图 像 来 训练 算法 ， 因 为 图 像 中 相 邻 的 像素 高 度 相 关 ， 输 入 数据 是 有 一 定 元 余 的 。 有 具体 来 说 ， 假 如 
我 们 正在 训练 的 16x16 灰 度 值 图 像 ， 记 为 一 个 256 维 向 量 y e R, j JURE 2; ANE Bac UUR 
fH. FARIS ZAI HAS TE, PCASIEZE n] DORADA Tale RS — 1 2899UIXAR ME, f ER EE 


小 。 








实例 和 数学 背景 


在 我 们 的 实例 中 ， 使 用 的 输入 数据 集 表示 为 {rO rO... 0), HE n — 2 即 40 Cpr. Hit 
我 们 想 把 数据 从 2 维 降 到 1 维 。 (在 实际 应 用 中 ， 我 科 也 许 需 要 把 数据 从 256 维 降 到 50 维 ， 在 这 里 使 用 低 维 才 
据 ， 主 要 是 为 了 更 好 地 可 视 化 算法 的 行为 ) 。 下 图 是 我 们 的 数据 集 : 
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这 些 数据 已 经 进行 了 预 处 理 ， 使 得 每 个 特征 cm. 和 Ta 具有 相同 的 均值 〈《 零 ) 和 方差 。 


为 方便 展示 ， 根 据 x. 值 的 大 小 ， 我 们 将 每 个 点 分 别 涂 上 了 三 种 颜色 之 一 ， 但 该 项 色 并 不 用 于 算法 而 仅 用 于 
图 解 。 


PCA 算 法 将 寻找 一 个 低 维 空间 来 投影 我 们 的 数据 。 从 下 图 中 可 以 看 出 ， Wi 是 数据 变化 的 主 方 同 ， 而 us 是 
次 方 同 。 





Habe bi, BEE Uy 方 同上 的 变化 要 比 在 us TEX. IUE 形式 化 地 找 出 方 同 Wi 和 us ， 我 们 下 先 计 
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算出 矩阵 于 ， 如 下 所 示 : 
1 TI 


B= —Y (2)(2)". 


TTL. 
i=l 


假设 m WAS, HA Y, MEWTA. GEF Do ， 读 Sigma ， 征 协 方才 年 阵 的 标准 符号 。 虽 


然 看 起 来 与 求 和 符号 Soi 比较 像 ， 但 它们 其 实 是 两 个 不 同 的 概念 。 ) 
j=] 











H VEH, BESO ETT A ua MEDIAE P 的 主 特征 癌 量 ， 而 uo 是 次 特征 同 量 。 


注 : 如 果 你 对 如 何 得 到 这 个 结果 的 其 体 数 学 推导 过 程 感 兴趣 ， 可 以 参看 CS229〔 机 占 学 习 )〉 PCA 部 分 的 课件 
《链接 在 本 页 确 部 ) 。 但 如 宋 仅 仅 是 想 跟 上 本 读 ， 可 以 不 必 如 此 。 


你 可 以 通过 标准 的 数值 线性 代数 运算 软件 求 得 特征 回 量 〈 见 实现 说 明 ) .我 们 先 计 算出 协 方 半 窍 阵 史 的 特征 回 
量 ， 按 列 排放 ， 而 组 成 窍 阵 : 


U = |ui Ug e Up 


此 处 ， u 是 主 特征 向 量 (对 应 最 大 的 特征 值 》， wa 是 次 特征 向 量 。 以 此 类 推 ， 另 记 入 ,和 Ao, .. .入 为 
相应 的 特征 值 。 


在 本 例 中 ， 向 量 Uy 和 Ma 构成 了 一 个 新 基 ， 可 以 用 来 表示 数据 。 令 s c RD 为 训练 样本 ， 那 么 wTx 就 
是 样本 点 x 在 维度 w 上 的 投影 的 长 度 〈 幅 值 ) 。 同 样 的 ， az 是 r 投影 到 uo 维度 上 的 幅 值 。 








旋转 数据 
人 至此， 我们 可 以 把 a 用 (u4, uz) 基 表 达 为 : 


-T ulg 
Trot = L t = oi ye 
a oA 








(下 标 “rot ”来 源 于 单词 “rotation”， 意 指 这 是 原 数 据 经 过 旋转 《〈“ 也 可 以 说 成 映射 ) Ja BI AG 


对 数据 集中 的 每 个 样本 i 分 别 进行 旋转 :7 人 一 [Tx 提 for every % ， 然 后 把 变换 后 的 数据 rot 显示 
在 坐标 图 上 ， 可 得 : 
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Jo Lx TU VI ANGE SER T) Uy, us ARM ARR. “MIM, 33 [IT 表示 旋转 到 基 uus ...,Un 之 
上 的 训练 数据 。 和 矩阵 CF 有 正 交 性 ， 即 满足 UTU =UUT ay» 所 以 若 想 将 旋转 后 的 向 量 Xrot 还 原 为 
原始 数据 mo ， 将 其 左 乘 算 阵 上 即 可 : 2 = Uzeo o WH-F: Ute =UU rt =r 


数据 降 维 
数据 的 主 方向 就 是 旋转 数据 的 第 一 维 Trot 。 因 此 ， 若 想 把 这 数据 降 到 一 维 ， 可 令 ; 


ZO) 一 zt ,= 一 UZ ^e Rm. 

更 一 般 的 ， 假 如 想 把 数据 mr cm ME) k 维 表示 cq Skean), RAR Tro 的 前 下 个 成 
分 ， 分 别 对 应 前 dz 个 数据 变化 的 主 方 同 。 

Peri die 种 解释 是 : 古 一 个 n 维 问 量 ， 其 中 前 几 个 成 分 可 能 比较 大 《例如 ， 上 例 中 大 部 分 样本 第 一 


个 成 分 gO, Ta. 的 取 值 相对 较 大 ) ， 而 后 面 成 分 可 能 会 比较 小 〈 例 如 ， 上 例 中 大 部 分 样本 的 


ry = ulz( S») 





PCASTTA ITT SED TE EH Trot PAE UAR RKI, Bie LEM THA. AI, w 
FE Trot 的 近似 表示 ， 那 么 将 Trot 除了 前 k 个 成 分 外 ， 其 余 全 赋值 为 零 ， 束 得 到 ; 


Trot.1 Trot.1 


Trot,k rot, k 
U Trot, k-4-1 


ER 


= Trot 


U IL rot.7. 
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在 本 例 中， 可 得 % 的 点 图 如 下 MR n=2k =1): 


0.6 
0.4 


ü.zr 


-0.2 
“0.4 


“0.6 








然而 ， 由 于 上 面 $ 的 后 py — SUN, Ro HES TUR POR. MA, FRIAR ES GER) 成 
分 来 定义 k AES T. 


这 也 解释 了 我 们 为 什么 会 以 Way Us... ,Un 为 基 来 表示 数据 : 要 决定 保留 哪些 成 分 变 得 很 简单 ， 只 需 取 前 
k 个 成 分 即 可 。 这 时 也 可 以 说 ， 我 们 “保留 了 前 k 个 PCA〈 主 ) RU. 


还 原 近 似 数 据 


现在 ， 我 们 得 到 了 原始 数据 v c x 的 低 维 “压缩 ”表征 量 m c Re ， » RIX, WREE 未 ， 我 们 应 如 
何 还 原 原 始 数据 x 呢 ? 查看 以 往 章节 以 往 章节 可 知 ， 要 转换 回来 ， 只 需 x = Ux, 即 可 。 进 一 步 ， 我 们 
tf 看 作 将 Trot 的 最 后 n—k 个 元 素 被 置 0 所 得 的 近似 表示 ， 因 此 如 果 给 定 cogo ， 可 以 通过 在 其 末 
尾 添加 n — k 个 0 来 得 到 对 rz, CR” MEM, Ba, AR U 便 可 近似 还 原 出 原 数 据 TX 。 具 体 来 说 ， 
计算 如 下 : 





X1 


ur 
i=l 
U 
上 面 的 等 式 基 于 先前 对 [7 的 定义 。 在 实现 时 ， 我 们 实际 上 并 不 先 给 qp HOM a Awe Do ， 因 为 这 意味 痢 


Re FOS. ANT şe PK RS U Wa k 列 相 乘 ， 即 上 陈 中 最 在 项 ， 来 达到 同样 的 目的 。 将 该 算 
法 应 用 于 本 例 中 的 数据 集 ， 可 得 如 下 关于 重 构 数据 uk: 
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T T 


zhat, 











由 图 可 见 ， 我 们 得 到 的 是 对 原始 数据 集 的 一 维 近似 重 构 。 


在 训练 目 动 编码 硕 或 其 它 无 监 千 特征 学 习 算法 时 ， 算 法 运行 时 间 将 依 顿 于 输入 数据 的 维 数 。 生 用 mca 
取代 x 作为 输入 数据 ， 那 么 算法 就 可 使 用 低 维 数据 进行 训练 ， 运 行 速度 将 显 闭 加 快 。 对 于 很 多 数据 集 来 
说 ， 低 维 表征 量 m 是 原 数据 集 的 极 佳 近似 ， 因 此 在 这 些 场合 使 用 PCA 是 很 合适 的 ， 它 引入 的 近似 误 关 的 很 
小 ， 却 可 蛙 乾 地 提高 你 算法 的 运行 速度 。 








选择 主 成 分 个 数 

我 们 该 如 何 选择 pos ， 即 保留 多 少 个 PCA 主 成 分 ? 在 上 面 这 个 简单 的 二 维 实验 中 ， 保 留 第 一 个 成 分 看 起 来 是 自 
然 的 选择 。 对 于 高 维 数据 来 说 ， 做 这 个 决定 就 没 那么 简单 :如果 k 过 天， 数据 压缩 率 不 高 ， 在 极限 情况 

k — n 时 ， 等 于 是 在 使 用 原始 数据 〈 只 是 旋转 投射 到 了 不 同 的 基 ) ， 相 反 地 ， 如 果 RE 过 小 ， 那 数据 的 近似 
误差 太太 。 

决定 de 值 时 ， 我 们 通常 会 考虑 不 同 k 值 可 保留 的 方差 百分比 。 具 体 来 说 ， 如 果 bon» BAREAK 
是 对 数据 的 完美 近似 ， 也 就 是 保留 了 100% 的 方差 ， 即 原始 数据 的 所 有 变化 都 被 保留 下 来 ， 相反 ， 如 果 大 一 0 
， 那 等 于 是 使 用 零 向 量 来 逼近 输入 数据 ， 也 就 是 只 有 0% 的 方差 被 保留 下 来 。 

一 般 而 言 ， 设 入 ,和 2, .. . An BRD 的 特征 值 〈 按 由 大 到 小 顺序 排列 》， 使 得 入 ; 为 对 应 于 特征 向 量 Uj 
的 特征 值 。 那 么 如 果 我 们 保留 前 k 个 成 分 ， 则 保留 的 方差 百分比 可 计算 为 ; 


RH ^j 

2: Àj. 
在 上 面 简单 的 二 维 实验 中 ，XN = 7.29 . Ayo = 0.69 。 因 此 ， 如 果 保 留 p 二 1 个 主 成 分 ， 等 于 我 们 保留 
T 7.29/(7.29 十 0.69) = 0.913 ， 即 91. 3% 的 方差 。 
对 保留 方差 的 百分比 进行 更 正式 的 定义 已 超出 了 本 教程 的 范围 ， 但 很 容易 证 明 ，Aj = SO ae, s CAE, 


‘rot, J 


如 果 Ay SO, M Troc; 也 就 基本 上 接近 于 0， 所 以 用 0 来 近似 它 并 不 会 产生 多 大 损失 。 这 也 解释 了 为 
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什么 要 保留 前 面 的 主 成 分 (对 应 的 Ay 值 较 大 ) 而 不 是 末尾 的 那些 。 这 些 前 面 的 主 成 分 rot,j 变化 性 更 
大 ， 取 值 也 更 大 ， 如 朵 将 其 设 为 0 势必 引入 较 大 的 近似 误 磊 。 


以 处 理 图 像 数 据 为 例 ， 一 个 惯 第 的 经 验 法 则 是 选择 E 以 保留 99% 的 方 牵 ， 换 句 话 说 ， 我 们 选取 满足 以 下 条 件 

的 最 小 fe 值 : 
k 

Daa Ai 

2 Àj 


对 其 它 应 用 ， 如 不 介意 引入 稍 大 的 误差 ， 有 时 也 保留 90-98% 的 方差 范围 。 奋 向 他 人 介绍 PCA 算 法 详情 ， 告 诉 他 
们 你 选择 的 k 保留 了 95% 的 方 和 过， 比 告 诉 他 们 你 保留 了 前 120 个 《或 任意 东 个 数字 ) 主 成 分 更 好 理解 。 











之 0.99. 








对 图 像 数 据 应 用 PCA 算 法 


为 使 PCA 算 法 能 有 效 工 作 ， 通 闸 我 们 希望 所 有 的 特征 i, Ta, -ean 部 有 相似 的 取 值 范围 (并且 均值 接近 于 
0) 。 如 本 你 曾 在 其 它 应 用 中 使 用 过 PCA 算 法 ， 你 可 能 知道 有 必要 单独 对 每 个 特征 做 预 处 理 ， 即 通过 售 算 每 个 
特征 Cy 的 均值 和 方 关 ， 而 后 将 其 取 值 范围 规整 化 为 零 均值 和 单位 方 赤 。 但 是 ， 对 于 大 部 分 图 像 类 型 ， 我 们 
却 不 需要 进行 这 样 的 预 处 理 。 假 定 我 们 将 在 目 然 图像 上 训练 算法 ， 此 时 特征 Ty 代表 的 是 像素 7 Hy. PT 
请 “ 目 然 图 像 ”， 不 严格 的 说 ， 是 指 人 或 动物 在 他 们 一 生 中 所 见 的 那 种 图 像 。 


注 : 通 第 我 们 选取 含 章 木 等 内 容 的 户外 场景 图 片 ， 然 后 从 中 随机 截取 小 图 像 块 “如 16x16 像 素 ) 来 训练 算法 。 
在 实践 中 我 们 友 现 ， 大 多 数 特征 学 习 算 法 对 训练 图 厂 的 确切 类 型 并 不 敏感 ， 所 以 大 多 数 用 普通 照相 机 拍摄 的 
图 片 ， 只 要 不 是 特别 的 模糊 或 市 有 非常 奇怪 的 人 工 痕迹 ， 痢 可 以 使 用 。 


在 自然 图 像 上 进行 训练 时 ， 对 每 一 个 像素 单独 估计 均值 和 方差 意义 不 大 ， 因 为 〈 理 论 上 ) 图 像 任 一 部 分 的 统 
计 性 质 都 应 该 和 其 它 部 分 相同 ， 图 像 的 这 种 特性 被 称 作 平稳 性 (stationarity) . 


具体 而 言 ， 为 使 PCA 算 法 正常 工作 ， 我 们 通 冲 需要 满足 以 下 和 要求: 〈 了 特征 的 均值 大 致 为 0)，〈2) 不 同 特征 的 方 
开 值 彼此 相似 。 对 于 目 然 图 片 ， 即 使 不 进行 方 到 归 一 化 操作 ， 条 件 (2) 也 卓然 满足 ， 故 而 我 们 不 再 进行 任何 方 
到 归 一 化 操作 (对 首 频 数据 , 如 声 谱 , 或 文本 数据 , 如 词 袋 问 量 ， 我 们 通 币 也 不 进行 方差 归 一 化 ) 。 实 际 上 ， 
PCA 算 法 对 输入 数据 具有 缩放 不 变性 ， 无 论 输 入 数据 的 值 被 如 何 放 大 《或 缩小 ) ， 返 回 的 特征 同 量 都 不 改变 。 
更 正式 的 说 : 如 来 将 每 个 特征 癌 量 a 都 乘 以 东 个 正 数 《〈 即 所 有 特征 量 被 放大 或 缩小 相同 的 倍数 ) ，PCA 的 输 
出 特征 同 量 都 将 不 会 及 生变 化 。 


既然 我 们 不 做 方差 归 一 化 ， 唯 一 还 需 进行 的 规整 化 操作 瓯 是 均值 规整 化 ， 其 目的 是 保证 所 有 特征 的 均值 都 在 0 
附近 。 根 据 应 用 ， 在 大 多 数 情况 下 ， 我 们 并 不 关注 所 输入 图 像 的 整体 明 腕 程度 。 比 如 在 对 象 识 列 任务 中 ， 图 
像 的 整体 明 党 程度 并 不 会 影响 图 像 中 存在 的 古 什么 物体 。 更 为 正式 地 说 ， 我 们 对 图 像 块 的 平均 腕 度 值 不 感 兴 
趣 ， 所 以 可 以 减 去 这 个 值 来 进行 均值 规整 化 。 


具体 的 步骤 是 ， 如 果 ol) © spr 代表 16x16 的 图 像 块 的 完 度 《〈 灰 度 ) fh 6n = 256) ， 可 用 如 下 算法 来 对 
每 幅 图 像 进行 零 均 值 化 操作 : 
































p. Io 
@ 5 i 
Bo = 2,2; 
pur 
xy = xy pO. for all j 


请 注意 ，1) 对 每 个 输入 图 像 块 pO 都 要 单独 执行 上 面 两 个 步骤 ，2) AEK pO RAR pÀ 的 平均 
亮度 值 。 尤 其 需要 注意 的 是 ， 这 和 为 每 个 像素 mj 单独 估算 均值 是 两 个 完全 不 同 的 概念 。 
如 果 你 处 理 的 图 像 并 非 自 然 图 像 ( 比 如， 手写 文字 ， 或 者 白 背景 正中 摆 放 单独 物体 ) ， 其 他 规整 化 操作 就 值 


得 考虑 了 ， 而 哪 种 做 法 最 合适 也 取决 于 具体 应 用 场合 。 但 对 自然 图 像 而 言 ， 对 每 幅 图 像 进行 上 述 的 零 均 值 规 
整 化 ， 是 默认 而 合理 的 处 理 。 
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介绍 


我 们 已 经 了 解 了 如 何 使 用 PCA 降 低 数 据 维 度 。 在 一 些 算 法 中 还 需要 一 个 与 之 相关 的 预 处 理 步 又 ， 

这 个 预 处 理 过 程 称 为 日 化 《一些 文 献 中 也 叫 sphering) 。 举 例 来 说 ， 假 设 训练 数据 是 图 像 ， 由 
于 图 像 中 相 邻 像 系 之 间 上 其 有 很 强 的 相关 性 ， 所 以 用 于 训练 时 输入 古 见 余 的 。 日 化 的 目的 束 是 降低 
输入 的 见 余 性 ， 更 正式 的 说 ， 我 们 希望 通过 日 化 过 程 使 得 学 习 算法 的 输入 其 有 如 下 性 质 :， (i) 特 
征 之 则 相关 性 较 低 ; Gi) 所 有 特征 其 有 相同 的 方 下。 


2D 的 例子 
下 面 我 们 先 用 前 文 的 2D 例 了 描述 日 化 的 主要 ， 然 后 分 别 介 绍 如 何 将 白化 与 平滑 和 PCA 相 结 


me 


如 何 消除 输入 特征 之 间 的 相关 性 ? 在 前 文 计算 QO _ YT SG) 时 实际 上 已 经 消除 了 输入 特征 
x 站 之 间 的 相关 性 。 得 到 的 新 特征 Zrot 的 分 布 如 下 图 所 示 : 
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3x ^ 25098 8] 9) 5 ZR BF : 


7.29 0 
0 0.69] 


QE: 严格 地 讲 ， 这 部 分 许多 关于 “ 协 方 关 ”的 陈述 仅 当 数据 均值 为 0 时 成 立 。 下 文 的 论述 都 隐 式 
地 假定 这 一 条 件 成 立 。 不 过 即使 数据 均值 不 为 0%， 下 文 的 说 法 仍然 成 立 ， 所 以 你 无 需 担心 这 个 。) 


Trot BM ZEB MEX ACAI Ay 和 Ag AIRA. HIERAR; AE, Trot, 和 
Trot,2 征 不 相关 的 ， 满 中 我 们 对 日 化 结 末 的 第 一 个 要 求 (特征 间 相 关 性 降低 ) 。 


为 了 使 每 个 输入 特征 具有 单位 方差 ， 我 们 可 以 直接 使 用 14 A, 作为 缩放 因子 来 缩放 每 个 特征 
Troti 。 有 具体 地 ， 我 们 定义 日 化 后 的 数据 XPCAwhite € Nn ü b: 


Trot.i 


TPCAwhitei 一 . 
V Ài 





绘制 出 XPCAwhite ， 我 们 得 到 : 
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这 些 数据 现在 的 协 方差 矩阵 为 单位 矩阵 T 。 我 们 说 ，TPCAwbhite 是 数据 经 过 PCA 白 化 后 的 版 
A: IpCAwhite 中 不 同 的 特征 之 间 不 相关 并 且 具 有 单位 方差 。 
白化 与 降 维 相 结合 。 如 果 你 想 要 得 到 经 过 白化 后 的 数据 ， 并 且 比 初始 输入 维 数 更 低 , 可 以 仅 保 


留 XPOAwhite 中 前 b 个 成 分 。 当 我 们 把 PCA 白 化 和 正则 化 结合 起 来 时 (在 稍 后 讨论 )， 
TPCAwhite 中 最 后 的 少量 成 分 将 总 是 接近 于 0， 因 而 舍弃 这 些 成 分 不 会 带 来 很 大 的 问题 。 


ZCA 和 白化 


最 后 要 说 明 的 是 ， 使 数据 的 协 方差 矩阵 变 为 单位 矩阵 [ 的 方式 并 不 唯一 。 具 体 地 ， 如 果 Rod 
任意 正 交 矩阵 ， 即 满足 PRT 二 PTR 二 7 (说 它 正 交 不 太 严格 ， 尽 可 以 是 旋转 或 反射 矩阵 )， 
那么 Raroa 仍然 其 有 单位 协 方差 。 在 ZCA 白 化 中 ， 令 R=U 。 我 们 定义 ZCA 白 化 的 结 
果 为 : 


TZCAwhite = LU YPCOAwhite 


绘制 XZuxCAwhite (445: 
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可 以 证 明 ， 对 所 有 可 能 的 Ro KIJE TZCAwhite SA HEIR IAB x 。 


当 使 用 ZCA 白 化 时 (不 同 于 PCA 白 化 )， 我 们 通常 保留 数据 的 全 部 n PERE, DAAA KRE OM 
维 数 。 


正则 化 
实践 中 需要 实现 PCA 白 化 或 ZCA 白 化 时 ， 有 时 一 — A, 在 数值 上 接近 于 0， 这 样 在 缩放 步 台 
时 我 们 除 以 /和 A; 将 导致 除 以 一 个 接近 0 的 值 ， 这 可 能 使 数据 上 滋 〈 几 为 大 数值 ) 或 造成 数值 不 稳 


定 。 因 而 在 实践 中 ， essei decipi 即 在 取 平 方 根 和 倒数 之 前 给 特征 
值 加 上 一 个 很 小 的 沼 数 e: 


rot,i 
TPCAwhitei 一 ALT 
“4 g 在 区 间 [—1,1] 上 时 ， 一 般 取 值 为 e œ 1075 


对 图 像 来 说 ， 这 里 加 上 e ， 对 输入 图 像 也 有 一 些 平 光 (或 低 通 小 波 ) 的 作用 。 这 样 处 理 还 能 消除 
在 图 像 的 像 妹 信息 获取 过 程 中 产生 的 噪声 ， 改 善 学 习 到 的 特征 ( 细 市 超出 了 本 文 的 范围 ) 。 


ZCA 日 化 是 一 种 数据 预 处 理 方法 ， 它 将 数据 从 mz 映射 到 XzCAwhite 。 事实 证 明 这 也 是 一 种 生 
PIRES OLDIES) XEXE ES ISTRHRETACU .. FUE U pi. 着 你 的 眼睛 感知 图 像 时 ， 由 于 一 幅 图 像 中 相 仓 
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的 部 分 在 完 度 上 十 分 相关 ， 大 多 数 临 近 的 “像素 ”在 眼中 被 感知 为 相近 的 值 。 因 此 ， 如 末 人 有 眼 需 
要 分 别传 输 每 个 像 系 值 〈“ 退 过 视觉 神经 ) 到 大 脑 中 ， 会 非常 不 划算 。 取 而 代 之 的 是 ， 视 网 腊 进 行 
一 个 与 ZCA 中 相似 的 去 相关 操作 (这 是 由 视网膜 上 的 ON- 型 和 0FF- 型 光 感 受 融 细胞 将 光 信号 转变 为 
神经 信 写 完成 的 ) 。 由 此 得 到 对 输入 图 像 的 更 低 见 余 的 表示 ， 并 将 它 传 输 到 大 脑 。 
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实现 主 成 分 分 析 和 日 化 


From Ufldl 





FE, JA pÉLIRASPCA, PCARAGAIZCARI SEVER FRIAS fer 158 A rey WC AR ERRUER KWEA]. 


首先 ， 我 们 需要 确保 数据 的 均值 〈 近 似 ) 为 零 。 对 于 自然 图 像 ， 我 们 通过 减 去 每 个 图 像 块 \patcbh) 的 均值 《近似 地 ) 来 达到 这 一 目标 。 为 此 ， 我 们 计算 每 
个 图 像 块 的 均值 ， 并 从 每 个 图 像 块 中 减 去 它 的 均值 。 (译注: 参见 PCA 一 章 中 “对 图 像 数据 应 用 PCA 算 法 ”一 节 ) 。Mat1lab 实 现 如 下 : 








avg = mean(x, D; — % 分 别 为 每 个 图 像 块 计算 像素 强度 的 均值 。 


X = x — repmat (avg, size(x, 1), D; 











PUPPI 


下 面 ， 我 们 要 计算 D= 4 (2) (2)? ， 如 果 你 在 Matlab 中 实现 〈 或 者 在 C++，Java 等 中 实现 ， 但 可 以 使 用 高 效 的 线性 代数 库 ) ， 直 接 求 和 效率 
很 低 。 不 过 ， 我 们 可 以 这 样 一 气 呵 成 。 


Mec a ae E ea a, a Se a EE pe a a ee a es ee ee ee a eL mma ee ee ee re ee ee ie ne ee ee ee ee ee ee ee ee ees ee ee ee ee a ee ed 


(自己 推导 一 下 看 看 ) 这 里 ， 我 们 假设 x 为 一 数据 结构 ， 其 中 每 列表 示 一 个 训练 样本 《〈 所 以 x 是 一 个 nxm 的 矩阵 )。 
接 下 来 ，PCA 计 算 = 的 特征 向 量 。 你 可 以 使 用 Matlap 的 eig 函数 来 计算 。 但 是 由 于 £X 是 对 称 半 正 定 的 和 矩阵， 用 sva 函数 在 数值 计算 上 更 加 稳定 。 
具体 来 说 ， 如 果 你 使 用 








| 


ASEM U 将 包含 Sigma 的 特征 向 量 (一 个 特征 向 量 一 列 ， 从 主 向量 开 始 排 序 ) ， 和 矩阵 5 对 角 线 上 的 元 素 将 包含 对 应 的 特征 值 ( 同 样 降序 排列 ) . AREE 
V 等 于 U 的 转 置 ， 可 以 忽略 。 


(注意 svd 函数 实际 上 计算 的 是 一 个 官 阵 的 奇异 值 和 奇异 癌 量 ， 就 对 称 半 正定 矩阵 的 特殊 情况 来 说 ， 它 们 对 应 于 特征 值 和 特征 同 量 ， 这 里 我 们 也 只 关心 
这 一 特例 。 关 于 奇异 向 量 和 特征 向 量 的 详细 讨论 超出 了 本 文 范围 。) 


最 后 ， 我 们 可 以 这 样 计 算 Zrot M F: 




















xRot = U’ * x; % 数据 旋转 后 的 结果 。 
xTilde = UC, 1:1)? * x; % 数据 降 维 后 的 结果 ， 这 里 k 希 望 保留 的 特征 向 量 的 数目 。 


0 ————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— ————————————————————————————————————————————————————————————————————————————————————————————————————————d 











这 以 s c RE 的 形式 给 出 了 数据 的 PCA 表 示 。 顺 便 说 一 下 ， 如 果 x ce ETT AIR nom. 和 矩阵， 这 也 是 一 种 向 量化 的 实现 方式 ， 上 面 的 式 
子 可 以 让 你 一 次 对 所 有 的 训练 样本 计算 出 x, Ep 。 得 到 的 xot 和 未 中 ， 每 列 对 应 一 个 训练 样本 。 








为 计算 PCA 白 化 后 的 数据 LpcAwhite ， 可 以 用 
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因为 S 的 对 角 线 包括 了 特征 值 和 ， 这 其 实 就 是 同时 为 所 有 样本 i 计算 FPCAwhitei = Vae 的 简洁 表达 。 











最 后 ， 你 也 可 以 这 样 计算 ZCA 白 化 后 的 数据 zcCAwhite: 





中 英文 对 照 


主 成 分 分 析 Principal Components Analysis (PCA) 
白化 whitening 

HANE zero-mean 

均值 mean value 

特征 值 eigenvalue 

FE [A] eigenvector 

对 称 半 正定 矩阵 symmetric positive semi-definite matrix 
数值 计算 上 稳定 numerically reliable 

降序 排列 sorted in decreasing order 

奇异 值 singular value 

奇异 回 量 singular vector 

回 量 化 实现 vectorized implementation 

对 角 线 diagonal 
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Exercise:PCA in 2D 
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PCA, PCA whitening and ZCA whitening in 2D 


In this exercise you will implement PCA, PCA whitening and ZCA whitening, as 
described in the earlier sections of this tutorial, and generate the images shown in 
the earlier sections yourself. You will build on the starter code that has been 
provided at pca 2d. zip (http://ufldl. stanford. edu/wiki/resources/pca 2d. zip) . You 
need only write code at the places indicated by “YOUR CODE HERE” in the files. The 
only file you need to modify is pca 2d.m. Implementing this exercise will make the 
next exercise significantly easier to understand and complete. 


Step 0: Load data 


The starter code contains code to load 45 2D data points. When plotted using the 
scatter function, the results should look like the following: 
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Raw data 


4.4 


0.6 


21.8 





Step 1: Implement PCA 


In this step, you will implement PCA to obtain x,4,, the matrix in which the data is 


“rotated” to the basis comprising WUi,..., Un made up of the principal components. 
As mentioned in the implementation notes, you should make use of MATLAB's svd 
function here. 


Step la: Finding the PCA basis 


Find t4 and tls, and draw two lines in your figure to show the resulting basis on 
top of the given data points. You may find it useful to use MATLAB' s hold on and hold 
off functions. (After calling hold on, plotting functions such as plot will draw the 
new data on top of the previously existing figure rather than erasing and replacing 
it; and hold off turns this off.) You can use plot([xl, x2], [yl,y2], ’-’) to draw a line 
between (xl,yl) and (x2,y2). Your figure should look like this: 
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If you are doing this in Matlab, you will probably get a plot that’s identical to 
ours. However, eigenvectors are defined only up to a sign. I.e., instead of 
returning tly as the first eigenvector, Matlab/Octave could just as easily have 
returned —14, and similarly instead of Ua Matlab/Octave could have returned —t. 
So if you wound up with one or both of the eigenvectors pointing in a direction 
opposite (180 degrees difference) from what’ s shown above, that's okay too. 


Step lb: Check xRot 


Compute xRot, and use the scatter function to check that xRot looks as it should, 
which should be something like the following: 
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Because Matlab/Octave could have returned —téy and/or —1ti9 instead of t4 and Us, 
it s also possible that you might have gotten a figure which is “flipped” or 

“reflected” along the g- and/or Y-axis; a flipped/reflected version of this figure 
is also a completely correct result. 


Step 2: Dimension reduce and replot 
In the next step, set k, the number of components to retain, to be 1 (we have 
already done this for you). Compute the resulting xHat and plot the results. You 


should get the following (this figure should not be flipped along the ax or Q- 
axis) : 
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xHald 


L.4 





Step 3: PCA Whitening 


Implement PCA whitening using the formula from the notes. Plot xPCAWhite, and verify 
that it looks like the following (a figure that is flipped/reflected on either/both 
axes is also correct): 
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Step 4: ZCA Whitening 


Implement ZCA whitening and plot the results. The results should look like the 
following (this should not be flipped/reflected along the g- or Y-axis): 
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Exercise:PCA and Whitening 


From Ufldl 


Contents 
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PCA and Whitening on natural images 


In this exercise, you will implement PCA, PCA whitening and ZCA whitening, and apply them 
to image patches taken from natural images. 


You will build on the MATLAB starter code which we have provided in pca exercise. zip 
(http://ufldl.stanford.edu/wiki/resources/pca exercise.zip) . You need only write code at the 
places indicated by “YOUR CODE HERE” in the files. The only file you need to modify is 


pca gen.m. 
Step 0: Prepare data 
Step 0a: Load data 


The starter code contains code to load a set of natural images and sample 12x12 patches 
from them. The raw patches will look something like this: 
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These patches are stored as column vectors gË? g Ri in the 144 x 10000 matrix x. 


Step 0b: Zero mean the data 

First, for each image patch, compute the mean pixel value and subtract it from that image, 
this centering the image around zero. You should compute a different mean value for each 
image patch. 

Step 1: Implement PCA 


Step la: Implement PCA 


In this step, you will implement PCA to obtain x,,;, the matrix in which the data is 





“rotated” to the basis comprising the principal components (i.e. the eigenvectors of X). 
Note that in this part of the exercise, you should not whiten the data. 


Step 1b: Check covariance 


To verify that your implementation of PCA is correct, you should check the covariance 
matrix for the rotated data x,,;. PCA guarantees that the covariance matrix for the rotated 


data is a diagonal matrix (a matrix with non-zero entries only along the main diagonal). 
Implement code to compute the covariance matrix and verify this property. One way to do 
this is to compute the covariance matrix, and visualise it using the MATLAB command imagesc. 
The image should show a coloured diagonal line against a blue background. For this dataset, 
because of the range of the diagonal entries, the diagonal line may not be apparent, so you 
might get a figure like the one show below, but this trick of visualizing using imagesc will 
come in handy later in this exercise. 






































Step 2: Find number of components to retain 


Next, choose k, the number of principal components to retain. Pick k to be as small as 
possible, but so that at least 99% of the variance is retained. In the step after this, you 
will discard all but the top k principal components, reducing the dimension of the original 
data to k. 


Step 3: PCA with dimension reduction 


Now that you have found k, compute 7, the reduced-dimension representation of the data. 


This gives you a representation of each image patch as a k dimensional vector instead of a 
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144 dimensional vector. If you are training a sparse autoencoder or other algorithm on this 
reduced-dimensional data, it will run faster than if you were training on the original 144 
dimensional data. 


To see the effect of dimension reduction, go back from + to produce the matrix jq, the 
dimension-reduced data but expressed in the original 144 dimensional space of image 
patches. Visualise » and compare it to the raw data, x. You will observe that there is 
little loss due to throwing away the principal components that correspond to dimensions 
with low variation. For comparison, you may also wish to generate and visualise 让 for when 
only 90% of the variance is retained. 





Raw images PCA dimension-reduced images PCA dimension-reduced images 
(99% variance) (90% variance) 


Step 4: PCA with whitening and regularization 


Step 4a: Implement PCA with whitening and regularization 


Now implement PCA with whitening and regularization to produce the matrix Xpcawhite. Use the 


following parameter value: 


e 
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Step 4b: Check covariance 


Similar to using PCA alone, PCA with whitening also results in processed data that has a 
diagonal covariance matrix. However, unlike PCA alone, whitening additionally ensures that 
the diagonal entries are equal to 1, i.e. that the covariance matrix is the identity 
matrix. 


That would be the case if you were doing whitening alone with no regularization. However, 
in this case you are whitening with regularization, to avoid numerical/etc. problems 
associated with small eigenvalues. As a result of this, some of the diagonal entries of the 
covariance of your Xpcawhite Will be smaller than 1. 


To verify that your implementation of PCA whitening with and without regularization is 
correct, you can check these properties. Implement code to compute the covariance matrix 
and verify this property. (To check the result of PCA without whitening, simply set epsilon 
to 0, or close to 0, say 1e-10). As earlier, you can visualise the covariance matrix with 


imagesc. When visualised as an image, for PCA whitening without regularization you should 
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see a red line across the diagonal (corresponding to the one entries) against a blue 
background (corresponding to the zero entries); for PCA whitening with regularization you 
should see a red line that slowly turns blue across the diagonal (corresponding to the 1 
entries slowly becoming smaller). 





Covariance for PCA whitening with Covariance for PCA whitening without 
regularization regularization 


Step 5: ZCA whitening 


Now implement ZCA whitening to produce the matrix X7cawnite. Visualize Xzcawnite and compare 


it to the raw data, x. You should observe that whitening results in, among other things, 
enhanced edges. Try repeating this with epsilon set to l, 0.1, and 0.01, and see what you 
obtain. The example shown below (left image) was obtained with epsilon = 0. 1. 








ZCA whitened images Raw images 
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fn] I 


在 本 和 中 ， 我 们 介绍 Softmax 回 归 模 型 ， 访 模型 是 logistic 回 归 模 型 在 多 分 类 问题 上 的 推广 ， 在 
多 分 类 问题 中 ， 类 标签 y 可 以 取 两 个 以 上 的 值 。 Softmax 回 归 模 型 对 于 诸如 MNIST 手 写 数字 分 
类 等 问题 是 很 有 用 的 ， 该 问题 的 目的 是 辨识 10 个 不 同 的 单个 数字 。Softmax 回 归 是 有 监督 的 ， 不 
过 后 面 也 会 介绍 它 与 深度 学 习 / 无 监督 学 习 方 法 的 结合 。〈 译 者 注 : ”MNIST 是 一 个 手写 数字 识别 
库 ， 由 NYU 的 Yann LeCun 等 人 维护 。http://yann. lecun. com/exdb/mnist/ ) 





想 一 下 在 logistic 回归 中 ， 我 们 的 训练 集 由 m 个 已 标记 的 样本 构成 : 
zy) (a y) ， 其 中 输入 特征 人) E Rm+1。 我 们 对 符号 的 约定 如 下 : 
TEWE 的 维度 为 n+l EF zo = ] 对 应 截 距 项 。) 由 于 logistic 回归 是 针对 二 
分 类 问题 的 ， 因 此 类 标记 JU = 10, Il 假 议 图 数 (hypothesis function) 如 下 : 
1 
he(x) = ——————-—— 
ox) 1+ exp( 0? x)’ 


我 们 将 训练 模型 参数 gu. 使 其 能 够 最 小 化 代价 函数 : 


] 本 汪汪 | 
J(0) = —— | Sy log ho(2) + (1 — y) log(1 — ho(z09)) 
il 





在 softmax 回 归 中 ， 我 们 解决 的 是 多 分 类 问题 〈 相 对 于 logistic 回归 解决 的 二 分 类 问题 )》 ， 类 
bw 可 以 取 k 个 不 同 的 值 〈 而 不 是 2 个 ) 。 因 此 ， 对 于 训练 集 
[ (0 4 Qi e (a y"). 我 们 有 y?) E (1, D ous k} (注意 此 处 的 类 别 下 标 从 1 
开始 ， 而 不 是 0) 。 例 如 ， 在 MNIST 数字 识别 任务 中 ， 我 们 有 上 二 10 个 不 同 的 类 别 。 
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对 于 给 定 的 测试 输入 zx， 我 们 想 用 假设 函数 针对 每 一 个 类 别 j 估 算出 概率 值 p(y = jle) Ei 
ret, FATA x 的 每 一 种 分 类 结 来 出 现 的 概 识 。 因 此 ， 我 们 的 假设 函数 将 要 输出 一 个 k 
AER [Al ee CI UR AU 1) 来 表示 这 k 个 估计 的 概率 信 。 其 体 地 说 ， 我 们 的 假设 函数 


pry = 12: 9) P ban 
7 2-1 ei” | 
[p(y® 一 k|z®; 9) | rs | 


1 
HUP, 0,...,0, c "| 是 模型 的 参数 。 请 注意 yx QR OHOPBUEA MER 
e 
化 ， 使 得 所 有 概率 之 和 为 1 。 
为 了 方便 起 见 ， 我 们 同样 使 用 符号 g 来 表示 全 部 的 模型 参数 。 在 实现 Softmax 回 归 时 ,将 JH 


—^ k x (n+ 的 矩阵 来 表示 会 很 方便 ， 该 矩阵 是 将 01,05, ..., 0, 按 行 罗列 起 来 得 到 
Hy, "n Pr: 


—01— 


—3i— 


) 一 


a 


AX IT PRI BL 


现在 我 们 来 介绍 softmax 回归 算法 的 代价 函数 。 在 下 面 的 公式 中 ，1{ 上古 示 性 函数 ， 其 取 值 
规则 为 : 


LU 








Lee III 


1{ (NPM } — 0。 举 例 来 说 ， 表 达 式 1{2 十 2 — 4} 的 值 为 1 ，1{1 二 1 一 5 
的 值 为 0。 我 们 的 代价 函数 为 : 





"m k QT pli) 
l - i : EIO 
J(8) = Um 2. 2. | ly em j} log T cT ol) 


fA ieee, LDxXRAxElogisticlE HJARA RZE o logistic JARAT ES ACH] UAN : 
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J0) - —— Sa-w )log(1 — ho(2)) + y? os halz) 
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pd TD - j og p(y? = ja; J 
4 一 ] j2ü 


可 以 看 到 ，Softmax 代 价 函数 与 logistic 代价 函数 在 形式 上 非常 类 似 ， 只 是 在 Softmax 损 失 函 数 
中 对 类 标记 的 Je 个 可 能 值 进行 了 累加 。 注 意 在 Softmax 回 归 中 将 a 分 类 为 类 别 7 的 概率 为 : 


OF) 
€ 4 


EFT LOL eee | PE CUNT. RS 
p(y = jx KEES IPED 


对 于 J(0) 的 最 小 化 问题 ， 目 前 还 没有 闭 式 解法 。 因 此 ， 我 们 使 用 选 代 的 优化 算法 〈 例 如 梯度 
下 降 法 ， 或 L-BFGS) 。 经 过 求 导 ， 我 们 得 到 梯度 公式 如 下 


TIL 


Vo, J (8 = 9 (1f{y = j} — p(y? = glx; 0))| 





让 我 们 来 回顾 一 下 符号 “Voj” 的 含义 。Vo,J(0) 本 身 是 一 个 向 量 ， 它 的 第 | 个 元 素 SHO 是 
J(9) 对 9; 的 第 1 个 分 量 的 偏 导数 。 





有 了 了 上面 的 俩 导数 公 却 以 后 ， npg agi eth sa — 来 最 小 化 S(O). 
例如 ， 在 梯度 下 降 法 的 标准 实现 中 ， 每 一 次 欠 代 需要 进行 如 下 更 新 : 0;:—0;— AV og J(8)( 
Tes Need 5 


当 实 现 softmax 回归 算法 时 ， Fea aye BES ERARI ERR SER AS. HUBS. ie 
MAEI (weight decay) EEH. RATE PRIAN CTI SILA e 





Softmax 回 归 模 型 参数 化 的 特点 


Softmax 回归 有 一 个 不 寻 第 的 特 扣 : 它 有 一 个 “ 见 余 ”的 参数 集 。 为 了 便于 阐述 这 一 特 反 ， 假 设 
我 们 从 参数 回 量 0; CURE DI qum we RIN, WR 0; 都 变 成 了 0; 一 py = oh, E. 
JEE MHE TS ER 数 变 成 了 E PB: 
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p(y? = jj2;6) = 


yk — Tg)" 
DL 


换 名 话说， 从 0, PRA P ved SE Me BS PR TIGE ES AR. 1 这 表明 前 面 的 softmax 回归 模 
型 中 存在 元 余 的 参数 。 更 正式 一 点 来 说， Softmax 模型 锌 过 度 参数 化 了 。 对 于 任意 一 个 用 于 拟 
合 数据 的 假 议 函 效 ， 可 以 求 出 多 组 参数 信 ， 这 些 参 数 得 到 的 古 完 全 相同 的 假设 函数 age 


BIS, MRS (Oa, 05, . .. , 0) 是 代价 函数 J(8) 的 极 小 值 点 ， 那 么 
(0, — ,00 h, 0, 一 v) 同样 也 是 它 的 极 小 值 点 ， 其 中 ab 可 以 为 任意 向 量 。 因 此 使 
J(0) 最 小 化 的 解 不 是 唯一 的 。 (有 趣 的 是 ， 由 于 J(8) 仍然 是 一 个 凸 函数 ， 因 此 梯度 下 降 时 不 
会 遇 到 局 部 最 优 解 的 问题 。 但 是 Hessian 矩阵 是 奇异 的 /不 可 逆 的 ， 这 会 直接 导致 采用 牛顿 法 优 
化 就 遇 到 数值 计算 的 问题 ) 


Em, 0 = = D. 时 ， 我 们 总 是 可 以 将 Dp. BRNA — = — 0 ( 即 符 换 为 全 零 问 量 ) ， 并 且 这 
种 变换 不 会 影响 假设 函数 。 因 此 我 们 可 以 去 挥 参数 丫 量 gu 《或 者 其 他 8; 中 的 任意 一 个 ) 而 不 
影响 假设 函数 的 表达 和 ED. 实际 上 ， 与 其 优化 全 部 的 有 x (n+ 1) 个 参数 (0.02, .. 0) 

(其 中 0; e RHD ， 我 们 可 以 令 g， 二 0， 只 优化 剩余 的 (c — 1) x (n 十 1) 个 参数 ， 这 
样 算法 依然 能 够 正章 工作 。 





在 实际 应 用 中 ， 为 了 使 算法 实现 更 简单 清楚 ， 往 往 保留 所 有 参数 (04,00, . . . ,0,,)， 而 不 任意 地 
将 某 一 参数 设置 为 0。 但 此 时 我 们 需要 对 代价 函数 做 一 个 改动 加 入 权重 衰减 。 权 重 衰减 可 以 解 
决 softmax 回归 的 参数 元 余 所 带 来 的 数值 问题 。 


ANCHE TE Yak 
RINDER “AEST 了 ia Lio OF, RMB RAIL, ANERE TIS 
数值 ， 现 在 我 们 的 代价 函数 变 为 : 


ws 


nm 


= 一 二 LIS io = j} log Sara YR pru Sw; 


i=1 j=l 4 Acl dco 


有 了 这 个 权重 衰减 项 以 后 A > 0) ， 代 价 函 数 就 变 成 了 严格 的 凸 函数 ， 这 样 就 可 以 保证 得 到 叭 
一 的 解 了 。 此 时 的 Hessian 算 阵 变 为 可 北 逢 阵 ， 并 且 因 为 (四 是 凸 函数 ， 梯 度 下 降 法 和 L- 
BFGS 等 算法 可 以 保证 收敛 到 全 局 最 优 佣 s pe com onno 
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为 了 使 用 优化 算法 ， 我 们 需要 求 得 这 个 新 函数 J0) 的 导数 ， 如 下 ; 


Vo,J(0 - -iE (1 fy = j} — p(y® = j|x: ))] + A0; 


通过 最 小 化 J 了 (9)， 我 们 就 能 实现 一 个 可 用 的 softmax 回归 模型 。 


Softmax 回 归 与 Logistic 回归 的 关系 


“RAWAM k — 9 时 ，softmax 回归 退化 为 logistic 回归 。 这 表明 softmax 回归 是 logistic 
回归 的 一 般 形式 。 上 基体 地 说 ， 当 k= 2 时 ，softmax 回归 的 假设 函数 为 : 


l 
efit 4 egg 20? 





halz) = 





利用 softmax 回 归 参 数 元 余 的 特点 ， 我 们 令 ab = 0, FAAP PB BCH SUP CAE, f 
到 : 


h(x) = 1 el i 
i (Tx Oo Orr) T .. 
err L e00) 5) | e0201) 2 


1 
1 二 efe2 一 91) 工 
E p(827 81) 1 « 


1--e(02—61)7 rt) 


1 
1--c(02— 91) 1 4) | 
1 





1e(@2—81 Ta 


ERG, 用 六 来 表示 和 一 Op» DETUR softmax [ANA SR TRU EE A 4 SUR EP ROS 7 


erat ARAMA 1 一 -TaGT， 这 与 logistic 回 归 是 一 致 的 。 


Softmax 回归 vs. k 个 二 元 分 交织 


如 果 你 在 开发 一 个 音乐 分 类 的 应 用 ， 需 要 对 k 种 类 型 的 音乐 进行 识别 ， 那 么 是 选择 使 用 softmax 
TRE, MS Pye logistic 回归 算法 建立 k Jr] ca eae? 


这 一 选择 取决 于 你 的 突 别 之 间 是 个 互 斥 ， 例 如 ， 如 末 你 有 四 个 突 别 的 音乐 ， 分 别 为 : 古典 首 乐 、 
SMR, HRA ER, ALA 可 以 假设 每 个 训练 样本 只 会 被 打上 一 个 标签 CB: — HA 
能 属于 这 四 种 音乐 闫 型 的 其 中 一 种 ) ， 此 时 你 应 该 使 用 类 别 数 k = 4 的 softmax 回 归 。“《 如 末 在 
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PRIN BSA AK HE AN ea TA DOSS BHCHR Efe 72S. ALA PRT SIS ER” , FP 
将 类 别 数 k WAS. ) 


如 下 你 的 四 个 类 别 如 下 : AFER SPH. Se. TATA, AA HESS Fil ZAI IFAS xe HIE 
的 。 例 如 : 一 首 歌 曲 可 以 来 源 于 影视 原声 ， 同 时 也 包 侣 人 声 。 这 种 情况 下 ， 使 用 4 个 二 分 类 的 
logistic 回归 分 类 右 更 为 合适 。 这 样 ， 对 于 每 个 狐 的 音乐 作品 ， 我 们 的 算法 可 以 分 别 判 断 它 是 
A PATRI 


现在 我 们 来 看 一 个 计算 视觉 领域 的 例子 ， 你 的 任务 是 将 图 像 分 到 三 个 不 同类 别 中 。(i) 假设 这 三 
个 类 别 分 别 是 : 室内 场景 、 户 外 城区 场景 、 户 外 匾 墅 场景 。 你 会 使 用 sofmax 回 归还 是 3 个 
logistic [WAAR ae? Gi) 现在 假设 这 三 个 类 别 分 别 是 宇内 场景 、 黑 白 图 片 、 包 含 人 物 的 
图 片 ， 你 又 会 选择 softmax 回归 还 是 多 个 logistic 回归 分 类 器 呢 ? 


在 第 一 个 例子 中 ， 三 个 类 别 是 互 厅 的 ， 因 此 更 适 村 选择 softmax 回 归 分 类 右 。 而 在 第 二 个 例子 
中 ， 建 立 三 个 独立 的 logistic 回 归 分 类 器 更 加 合适 。 
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Exercise:softmax Regression 


From Ufldl 


Contents 


= | Softmax regression 
» |. 1 Dependencies 


ma 1.2 Step 0: Initialize constants and parameters 
m 1.3 Step 1: Load data 

m 1.4 Step 2: Implement softmaxCost 

mn 1.5 Step 3: Gradient checking 

=m |.6 Step 4: Learning parameters 

m ].7 Step 5: Testing 


Softmax regression 


In this problem set, you will use softmax regression to classify MNIST images. The 
goal of this exercise is to build a softmax classifier that you will be able to 
reuse in the future exercises and also on other classification problems that you 
might encounter. 


In the file softmax exercise. zip 

(http://ufldl. stanford. edu/wiki/resources/softmax exercise. zip) , we have provided some 
starter code. You should write your code in the places indicated by “YOUR CODE HERE” 
in the files. 


In the starter code, you will need to modify softmaxCost.m and softmaxPredict.m for 
this exercise. 


We have also provided softmaxExercise.m that will help walk you through the steps in 
this exercise. 


Dependencies 


The following additional files are required for this exercise: 


= MNIST Dataset (http://yann. lecun. com/exdb/mnist/) 
ma Support functions for loading MNIST in Matlab 
=» Starter Code (softmax exercise. zip) 
(http: //ufldl. stanford. edu/wiki/resources/softmax exercise. zip) 


You will also need: 
= computeNumericalGradient.m from Exercise:Sparse Autoencoder 
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If you have not completed the exercises listed above, we strongly suggest you 
complete them first. 


Step 0: Initialize constants and parameters 
We ve provided the code for this step in softmaxExercise. m. 


Two constants, inputSize and numClasses, corresponding to the size of each input 
vector and the number of class labels have been defined in the starter code. This 
will allow you to reuse your code on a different data set in a later exercise. We 
also initialize lambda, the weight decay parameter here. 


Step 1: Load data 


The starter code loads the MNIST images and labels into inputData and labels 
respectively. The images are pre-processed to scale the pixel values to the range 
10,1], and the label 0 is remapped to 10 for convenience of implementation, so that 
the labels take values in {1,2,...,10}. You will not need to change any code in 
this step for this exercise, but note that your code should be general enough to 
operate on data of arbitrary size belonging to any number of classes. 


Step 2: Implement softmaxCost 


In softmaxCost.m, implement code to compute the softmax cost function J(90). Remember 
to include the weight decay term in the cost as well. Your code should also compute 
the appropriate gradients, as well as the predictions for the input data (which will 
be used in the cross-validation step later). 


It is important to vectorize your code so that it runs quickly. We also provide 
several implementation tips below: 


Note: In the provided starter code, theta is a matrix where each the jt? row is H 


Implementation Tip: Computing the ground truth matrix - In your code, you may 


need to compute the ground truth matrix M, such that M(r, c) is 1 if y € = r and 0 
otherwise. This can be done quickly, without a loop, using the MATLAB functions 
sparse and full. Specifically, the command M = sparse(r, c, v) creates a Sparse matrix 
such that M(r(i), c(i)) = v(i) for all i. That is, the vectors r and c give the 
position of the elements whose values we wish to set, and v the corresponding values 
of the elements. Running full on a sparse matrix gives a full” representation of 
the matrix for use (meaning that Matlab will no longer try to represent it as a 
sparse matrix in memory). The code for using sparse and full to compute the ground 
truth matrix has already been included in softmaxCost. m. 


Implementation Tip: Preventing overflows - in softmax regression, you will have 
to compute the hypothesis 
ww ai bbt. com TOHOOO00 
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When the products 97 ,G are large, the exponential function "Pi a) will become very 


large and possibly overflow. When this happens, you will not be able to compute your 
hypothesis. However, there is an easy solution - observe that we can multiply the 
top and bottom of the hypothesis by some constant without changing the output: 
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Hence, to prevent overflow, simply subtract some large constant value from each of 
the B; x" terms before computing the exponential. In practice, for each example, 


you can use the maximum of the 91 a terms as the constant. Assuming you have a 


matrix M containing these terms such that M(r, c) is 91 369), then you can use the 


following code to accomplish this: 


7 M is the matrix as described in the text 
M = bsxfun(@minus, M, max(M, [], 1)); 


[| 


max(M) yields a row vector with each element giving the maximum value in that 
column. bsxfun (short for binary singleton expansion function) applies minus along 
each row of M, hence subtracting the maximum of each column from every element in 
the column. 


Implementation Tip: Computing the predictions - you may also find bsxfun useful in 
computing your predictions - if you have a matrix M containing the "P; a terms, 


such that M(r, c) contains the pr T"? term, you can use the following code to compute 


the hypothesis (by dividing all elements in each column by their column sum): 
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7 M is the matrix as described in the text 
M = bsxfun(@rdivide, M, sum(M)) 


The operation of bsxfun in this case is analogous to the earlier example. 


Step 3: Gradient checking 


Once you have written the softmax cost function, you should check your gradients 

numerically. In general, whenever implementing any learning algorithm, you should 
always check your gradients numerically before proceeding to train the model. The 
norm of the difference between the numerical gradient and your analytical gradient 


should be small, on the order of 10 ~ J 


Implementation Tip: Faster gradient checking - when debugging, you can speed up 
gradient checking by reducing the number of parameters your model uses. In this 
case, we have included code for reducing the size of the input data, using the first 
8 pixels of the images instead of the full 28x28 images. This code can be used by 
setting the variable DEBUG to true, as described in step 1 of the code. 


Step 4: Learning parameters 


Now that you've verified that your gradients are correct, you can train your softmax 
model using the function softmaxTrain in softmaxTrain.m. softmaxTrain which uses the L- 
BFGS algorithm, in the function minFunc. Training the model on the entire MNIST 
training set of 60000 28x28 images should be rather quick, and take less than 5 
minutes for 100 iterations. 


Factoring softmaxTrain out as a function means that you will be able to easily reuse 
it to train softmax models on other data sets in the future by invoking the function 
with different parameters. 


Use the following parameter when training your softmax classifier: 


Step 5: Testing 


Now that you've trained your model, you will test it against the MNIST test set, 
comprising 10000 28x28 images. However, to do so, you will first need to complete 
the function softmaxPredict in softmaxPredict.m, a function which generates predictions 
for input data under a trained softmax model. 


Once that is done, you will be able to compute the accuracy (the proportion of 
correctly classified images) of your model using the code provided. Our 
implementation achieved an accuracy of 92.6%. If your model's accuracy is 
significantly less (less than 91%), check your code, ensure that you are using the 
trained weights, and that you are training your model on the full 60000 training 
images. Conversely, if your accuracy is too high (99-100%), ensure that you have not 
accidentally trained your model on the test set as well. 
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ER IR 


MROCZA- SE BMAD ee AGL, A Sa PERE, mea M HJ JJ Ze Ie TK 
以 更 多 的 数据 。 机 器 学 习 界 甚至 有 个 说 法 : “有 时 候 胜出 者 并 非 有 最 好 的 算法 ， 而 是 有 更 多 的 数 
HE : 22 


人 们 总 是 可 以 尝试 获取 更 多 的 已 标注 数据 ， 但 是 这 样 做 成 本 往往 很 高 。 例 如 研究 人 员 已 经 花 了 相当 
的 精力 在 使 用 类 似 AMT (Amazon Mechanical Turk) 这 样 的 工具 上 ， 以 期 获取 更 大 的 训练 数据 集 。 
相 比 大 量 研 究 人 员 通 过 手工 方式 构建 特征 ， 用 众 包 的 方式 让 多 人 手工 标 数据 是 一 个 进步 ， 但 是 我 们 
可 以 做 得 更 好 。 具 体 的 说 ， 如 果 算 法 能 够 从 未 标注 数据 中 学 习 ， 那 么 我 们 就 可 以 轻易 地 获取 大 量 无 
标注 数据 ， 并 从 中 学 习 。 自 学 习 和 无 监督 特征 学 习 就 是 这 种 的 算法 。 尺 管 一 个 单一 的 未 标注 样本 蕴 
含 的 信息 比 一 个 已 标注 的 样本 要 少 ， 但 是 如 果 能 获取 大 量 无 标注 数据 (比如 从 互联 网 上 下 载 随 机 
的 、 无 标注 的 图 像 、 音 频 剪 辑 或 者 是 文本 ) ， 并 且 算 法 能 够 有 效 的 利用 它们 ， 那 么 相 比 大 规模 的 手 
工 构建 特征 和 标 数 据 ， 算 法 将 会 取得 更 好 的 性 能 。 


在 目 学 习 和 无 监督 特征 学 习 问 题 上 ， 可 以 给 算法 以 大 量 的 未 标注 数据 ， 学 习 出 较 好 的 特征 描述 。 在 
符 试 解决 一 个 具体 的 分 闫 问题 时 ， 可 以 基于 这 些 学 习 出 的 特征 描述 和 任意 的 《可 能 比较 少 的 ) 已 标 
注 数 据 ， 使 用 有 监督 学 习 方 法 完成 分 类 。 


在 一 些 拥 有 大 量 未 标注 数据 和 少量 的 已 标注 数据 的 场景 中 ， 上 述 思 


8 下 可 能 是 最 有 效 鸭 。 即 使 在 只 有 
己 标 注 数据 的 情况 下 《这 时 我 们 通 币 忽略 训 练 数 据 的 类 标号 进行 特 ) 


征 学 习 ) ， 以 上 想法 也 能 得 到 很 
好 的 结果 。 
特征 学 习 


我 们 已 经 了 解 到 如 何 使 用 一 个 自 编码 器 (autoencoder》 从 无 标注 数据 中 学 习 特 征 。 具 体 来 说 ， 候 
定 有 一 个 无 标注 的 训练 数据 集 {10 O... o0) (下 标 u 代表 “不 带 类 标 ”) 。 现 在 用 
它们 训练 一 个 稀 琉 自 编码 器 〈 可 能 需要 首先 对 这 些 数据 做 白化 或 其 它 适 当 的 预 处 理 ) 。 
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Input Features Output 


利用 训练 得 到 的 模型 参数 pO) pO) yw 52)， 给 定 任意 的 输入 数据 x， 可 以 计算 隐藏 单 元 的 
激活 量 (activations) qa。 如 前 所 述 ， 相 比 原始 输入 x 来 说 ，a 可 能 是 一 个 更 好 的 特征 描述 。 
下 图 的 神经 网 络 描述 了 特征 (激活 量 a) 的 计算 。 
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Input Features 
XX SE by EE BU TE BU A A Sas, FEI DSH Sila E. 


假定 有 大 小 为 ra 的 已 标注 训练 集 (aj y), (a yO), (o 00 m NER 
示 “ 市 闫 标 ”) ， 我 们 可 以 为 输入 数据 找到 更 好 的 特征 描述， 例如 ， 可 以 将 D Ud A URSI EL ZR 
码 器 ， 得 到 隐藏 单元 激活 量 QU. BERR, ALLE BEE FH of) CENA z :0 (“替代 表 
ZR" ,Replacement Representation) 。 也 可 以 合 二 为 一 ， 使 用 新 的 向 量 (zt. !a 0) 来 代 蔡 原始 
数据 DE (“级 联 表 示 ”, Concatenation Representation) . 


经 过 REI, WARRE (af. y), (a e) JO)... (aj ,1 yn) ys 
(rr jap ^, y' D, (mf. a )y af Mis (at. a , a p) 1 ym} )} (取决 于 使 用 a ) 替换 


z} ”还 是 将 二 者 合并 ) 。 在 实践 中 ， 将 al ) 和 了 人 ORBE RINTEN. 但 是 考虑 到 内 在 和 计 
算 的 成 本 ， 也 可 以 使 用 蔡 换 操作 。 


最 终 ， BY EA MISI AA Ini Ss? 2L A (例如 svm, logistic regression 等 ) ， 得 到 一 个 判别 函 
数 对 y 值 进行 预测 。 预 测 过 程 如 下 : 给 定 一 个 测试 样本 :Ttest， 重 复 之 前 的 过 程 ， 将 其 送 入 稀 下 C 
El at ae 得 到 Qtest。 然 后 将 Qtest CRE (Tiest, Atest)? BARRA, ABE. 
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数据 预 处 理 
在 特征 学 习 阶 段 ， 我 们 从 未 标注 训练 集 {10 rO... Dp 中 学 习 ， 这 一 过 程 中 可 能 计算 了 


各 种 数据 预 处 理 参数 。 例 如 计算 epe rd Mt meee 或 者 
对 原始 数据 做 主 成 分 分 析 (PCA) ， 然 后 将 原始 数据 表示 为 [7Tj。( 又 或 者 使 用 PCA 白化 或 ZCA 

白化 ) 。 这 样 的 话 ， 有 必要 将 这 些 参数 保存 起 来 ， 并 且 在 后 面 的 训练 和 测试 阶段 使 用 同样 的 参数 ， 

以 保证 数据 进入 稀疏 自 编码 神经 网 络 之 前 经 过 了 同样 的 变换 。 例 如 ， 如 果 对 未 标注 数据 集 进行 PCA 
预 处 理 ， 就 必须 将 得 到 的 矩阵 U 保存 起 来 ， 并 且 应 用 到 有 标注 训练 集 和 测试 集 上 ， 而 不 能 使 用 有 
标注 训练 集 重新 估计 出 一 个 不 同 的 矩阵 U (也 不 能 重新 计算 均值 并 做 均值 标准 化 ) ， 否 则 的 话 可 
能 得 到 “个 完全 不 一致 的 数据 预 处 理 操作 ， 导 到 进入 自 编码 器 的 数据 分 布 异 于 训练 自 久 码 器 时 的 
数据 分 布 。 


Jc s ERE TIE 2J EAS 


有 两 种 常见 的 无 监督 特征 学 习 方式 ， 区 别 在 于 你 有 什么 样 的 未 标注 数据 。 自 学 习 (self-taught 

learning) 是 其 中 更 为 一 般 的 、 更 强大 的 学 习 方式 ， 它 不 要 求 未 标注 数据 Ty 和 已 标注 数据 X 
来 目 同样 的 分 布 。 万 外 一 种 市 限制 性 的 方式 也 被 称 为 半 监 督学 习 ， 它 有 要求 Tw 和 ZI 服从 同样 的 分 
布 。 下 面 通过 例子 解释 二 者 的 区 列 。 


假定 有 一 个 计算 机 视 贫 方面 的 任务 ， 目 标 是 区 分 汽车 和 摩托 车 图 像 ， 也 即 训练 样本 里 面 要 么 是 汽车 
的 图 像 ， 要 么 是 摩托 车 的 图 像 。 哪 里 可 以 获取 大 量 的 未 标注 数据 呢 ? 最 简单 的 方式 可 能 是 从 互联 网 
上 下 载 一 些 随 机 的 赂 像 数 据 集 ， 在 这 些 数据 上 训练 出 一 个 黎 蔚 目 编 权 左 ， 从 中 得 到 有 用 的 特征 。 这 
个 例子 里 ， 未 标注 数据 完全 来 自 于 一 个 和 已 标注 数据 不 同 的 分 布 (未 标注 数据 集中 ， 或 许 其 中 一 些 
图 像 包含 汽车 或 者 摩托 车 ， 但 是 不 是 所 有 的 图 像 都 如 此 ) 。 这 种 情形 被 称 为 目 学 习 。 


相反 ， 如 条 有 大 量 的 未 标注 图 像 数 据 ， 要 么 是 汽车 图 像 ， 要 么 是 摩托 车 图 像 ， 仅 仅 是 缺失 了 关 标 所 
(没有 标注 每 张 图 片 到 底 是 汽车 还 是 摩托 车 ) 。 也 可 以 用 这 些 未 标注 数据 来 学 习 特 征 。 这 种 方式 ， 
即 要 求 未 标注 样本 和 市 标注 样本 服从 相同 的 分 布 ， 有 时 候补 称 为 半 监 督学 习 。 在 实践 中 ， 第 季 无 法 
找到 满足 这 种 要 求 的 未 标注 数据 (到 哪里 找到 一 个 每 张 图 像 不 是 汽车 束 古 摩托 车 ， 只 是 丢失 了 类 标 
号 的 图 像 数据 库 ? ) 因此 ， 目 学 习 在 无 标注 数据 集 的 特征 学 习 中 应 用 更 广 。 


目 我 学 习 / 目 学 习 self-taught learning 

无 监督 特征 学 习 unsupervised feature learning 
目 编码 器 autoencoder 

白化 whitening 

BUR activation 


MH miS sparse autoencoder 
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Exercise:Self-Taught Learning 
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m 5 Step 3: Extracting features 
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» 7 Step b: Classifying on the test set 


Overview 


In this exercise, we will use the self-taught learning paradigm with the sparse 
autoencoder and softmax classifier to build a classifier for handwritten digits. 


You will be building upon your code from the earlier exercises. First, you will 
train your sparse autoencoder on an “unlabeled” training dataset of handwritten 
digits. This produces feature that are penstroke-like. We then extract these learned 
features from a labeled dataset of handwritten digits. These features will then be 
used as inputs to the softmax classifier that you wrote in the previous exercise. 


Concretely, for each example in the the labeled training dataset iX, we forward 
propagate the example to obtain the activation of the hidden units 0 3). We now 


represent this example using gl?) (the “replacement” representation), and use this 
to as the new feature representation with which to train the softmax classifier. 


Finally, we also extract the same features from the test data to obtain predictions. 


In this exercise, our goal is to distinguish between the digits from O to 4. We will 
use the digits 5 to 9 as our “unlabeled” dataset which which to learn the features; 
we will then use a labeled dataset with the digits 0 to 4 with which to train the 
softmax classifier. 


In the starter code, we have provided a file stlExercise.m that will help walk you 
through the steps in this exercise. 


Dependencies 


The following additional files are required for this exercise: 


= MNIST Dataset (http: //yann. lecun. com/exdb/mnist/) 
ma Support functions for loading MNIST in Matlab 
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=» Starter Code (stl exercise. zip) 
(http: //ufldl. stanford. edu/wiki/resources/stl exercise. zip) 


You will also need your code from the following exercises: 


» Exercise:Sparse Autoencoder 
m Exercise: Vectorization 
m Lxercise:softmax Regression 


If you have not completed the exercises listed above, we strongly suggest you 
complete them first. 


Step 1: Generate the input and test data sets 


Download and decompress stl exercise. zip 

(http://ufldl. stanford. edu/wiki/resources/stl exercise.zip) , which contains starter code 
for this exercise. Additionally, you will need to download the datasets from the 
MNIST Handwritten Digit Database for this project. 


Step 2: Train the sparse autoencoder 


Next, use the unlabeled data (the digits from 5 to 9) to train a sparse autoencoder, 
using the same sparseAutoencoderCost.m function as you had written in the previous 
exercise. (From the earlier exercise, you should have a working and vectorized 
implementation of the sparse autoencoder.) For us, the training step took less than 
25 minutes on a fast desktop. When training is complete, you should get a 
visualization of pen strokes like the image shown below: 





Informally, the features learned by the sparse autoencoder should correspond to 
penstrokes. 


Step 3: Extracting features 
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After the sparse autoencoder is trained, you will use it to extract features from 
the handwritten digit images. 


Complete feedForwardAutoencoder.m to produce a matrix whose columns correspond to 


activations of the hidden layer for each example, i.e., the vector a 
corresponding to activation of layer 2. (Recall that we treat the inputs as layer 
D. 


After completing this step, calling feedForwardAutoencoder.m should convert the raw 


image data to hidden unit activations a. 


Step 4: Training and testing the logistic regression model 


Use your code from the softmax exercise (softmaxTrain.m) to train a softmax 
classifier using the training set features (trainFeatures) and labels (trainLabels). 


Step 5: Classifying on the test set 


Finally, complete the code to make predictions on the test set (testFeatures) and see 
how your learned features perform! If you’ ve done all the steps correctly, you 
should get an accuracy of about 98% percent. 


As a comparison, when raw pixels are used (instead of the learned features), we 
obtained a test accuracy of only around 969 (for the same train and test sets). 


Self-Taught Learning | Exercise:Self-Taught Learning 
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从 目 我 和 学习 到 深层 网 络 


From Ufldl 








FER, RAAH BORA TA softmax 或 logistic 回归 分 类 器 的 特征 。 这 些 特征 仅 利 用 未 标注 数据 学 习 获 得 。 在 本 节 中 ， 我 们 描述 如 
何 利用 未 标注 数据 进行 微调 ， 从 而 进一步 优化 这 些 特征 。 如 果 有 大 量 已 标注 数据 ， 通 过 微调 就 可 以 显著 提升 分 类 器 的 性 能 。 











在 目 我 学 习 中 ， 我 们 首先 利用 未 标注 数据 训练 一 个 稀 臣 目 编 码 器 。 随 后 ， 给 定 一 个 新 样本 实 ， 我 们 通过 隐 含 层 提 取出 特征 a。 上 述 过 程 图 示 如 下 : 





Input Features 


我 们 感 兴趣 的 是 分 类 问题 ， 目 标 是 预测 样本 的 类 别 标号 V。 我 们 拥有 标注 数据 集 (2 yO) (cl? y)... (4 000. m0), Gi mi 个 标注 样 
本 。 此 前 我 们 已 经 说 明 ， 可 以 利用 稀疏 自 编码 器 获得 的 特征 gO 来 蔡 代 原始 特征 。 这 样 就 可 获得 训练 数据 集 (a yO), (a0 m0), A, 
我 们 训练 出 一 个 从 特征 gO 到 类 标号 y 的 logistic 分 类 器 。 为 说 明 这 一 过 程 ， 我 们 按照 神经 网 络 一 节 中 的 方式 ， 用 下 图 描述 logistic 回归 单元 
GARE) 。 











P(y=0 | x) 





Input Logistic 
(features) classifier 


AG SEA FR ATTA SBN A IA a CRA Do EHDA “MEME AS m 映射 到 预测 值 p(y = l|z) 的 函数 。 将 此 前 的 两 张 图 片 结合 起 来 ， 
就 得 到 该 函数 的 图 形 表 示 。 也 即 ， 最 终 的 分 类 器 可 以 表示 为 ; 
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Input Features Logistic 


classifier 





该 模型 的 参数 通过 两 个 步骤 训练 获得 : 在 该 网 络 的 第 一 层 ， 将 输入 or 映射 至 隐藏 单元 激活 量 a 的 权 值 yr) ay Dg eit E d aS VARIES. TE 
第 二 层 ， 将 隐藏 单 元 a 映射 至 输出 y 的 权 值 We 可 以 通过 logistic 回归 或 softmax 回归 训练 获得 。 








这 个 最 终 分 类 器 整体 上 显然 是 一 个 大 的 神经 网 络 。 因 此 ， 在 训练 获得 模型 最 初 参数 (利用 自动 编码 器 训练 第 一 层 ， 利 用 logistic/softmax 回归 训练 第 二 
层 ) 之 后 ， 我 们 可 以 进一步 修正 模型 参数 ， 进 而 降低 训练 误差 。 有 具体 来 说 ， 我 们 可 以 对 参数 进行 微调 ， 在 现 有 参数 的 基础 上 采用 梯度 下 降 或 者 L-BFGS 来 
降低 已 标注 样本 集 {(z yD) (S0) yO)... (aE my 上 的 训练 误差 。 











使 用 微调 时 ， 初 始 的 非 监 督 特征 学 习 步 又 《也 就 是 目 动 编码 右 和 1logistic 分 类 需 训 练 ) 有 时 候 被 称 为 预 训练 。 微 调 的 作用 在 于 ， 已 标注 数据 集 也 可 以 用 来 
修正 权 值 全 人)， 这 样 可 以 对 隐藏 单元 所 提取 的 特征 a. 做 进一步 调整 。 














到 现在 为 止 ， 我 们 描述 上 述 过 程 时 ， 都 假设 采用 了 “ 蔡 代 (Replacement) ”表示 而 不 是 “级 联 (Concatenation) " RAN. TETHW S M. logistic 分 类 
器 所 看 到 的 训练 样本 格式 为 (at, yy 由)， 而 在 级 联 表示 中 ， 分 类 器 所 看 到 的 训练 样本 格式 为 ((x 由 ,a 中), y 四 )。 对 级 联 表示 同样 可 以 进行 微调 在 级 联 
表示 神经 网 络 中 ， 输 入 值 I. 也 直接 被 输入 至 logistic 分 类 器 。 对 此 前 的 神经 网 络 示 意图 稍 加 更 改 ， 即 可 获得 其 示意 图 。 具 体 的 说 ， 第 一 层 的 输入 市 点 
除了 与 隐 层 联接 之 外 ， 还 将 越过 隐 层 ， 与 第 三 层 输 出 市 点 直接 相连 ) 。 但 是 对 于 微调 来 说 ， 级 联 表示 相对 于 蔡 代 表示 几乎 没有 优势 。 因 此 ， 如 果 需 要 开展 
微调 ， 我 们 通常 使 用 蔡 代表 示 的 网 络 〈 但 是 如 果 不 开 展 微调 ， 级 联 表示 的 效果 有 时 候 会 好 得 多 ) 。 


























在 什么 时 候 应 用 微调 ? 通 第 仅 在 有 大 量 已 标注 训练 数据 的 情况 下 使 用 。 在 这 样 的 情况 下 ， 微 调 能 显著 提升 分 类 嚣 性能。 然而， 如果 有 大 量 未 标注 数据 集 
用 于 非 监 督 特 征 学 习 / 预 训练 ) ， 却 只 有 相对 较 少 的 己 标 注 训 练 集 ， 微 调 的 作用 非常 有 限 。 
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深层 网 络 deep networks 
微调 fine-tune 
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非 监 督 特 征 学 习 unsupervised feature learning 
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概述 








在 之 前 的 章节 中 ， 你 已 经 构建 了 一 个 包括 输入 层 、 隐 羧 层 以 及 输出 层 的 三 层 神经 网 络 。 昌 然 该 网 络 对 于 MNIST 手 写 数 字 
数据 库 非 常 有 效 ， 但 是 它 还 是 一 个 非常 “ 浅 ” 的 网 络 。 这 里 的 “ 浅 ” 指 的 是 特征 《隐藏 层 的 激活 值 mt)) 只 使 用 一 层 
计算 单元 (隐藏 屋 ) 来 得 到 的 。 

















在 本 节 中 ， 我 们 开始 讨论 深度 神经 网 络 ， 即 舍 有 多 个 隐藏 层 的 神经 网 络 。 通 过 引入 深度 网 络 ， 我 们 可 以 计算 更 多 复杂 的 
输入 特征 。 因 为 每 一 个 隐藏 层 可 以 对 上 一 层 的 输出 进行 非 线 性 变换 ， 因 此 深度 神经 网 络 拥有 比 “ 浅 屋 ” 网 络 更 加 优 腊 的 
表达 能 力 〈 例 如 可 以 学 习 到 更 加 复杂 的 函数 天 系 )。 

















值得 注意 的 是 当 训 练 深度 网 络 的 时 候 ， 每 一 层 隐 层 应 该 使 用 非 线 性 的 油 活 函数 (x)。 这 是 因为 多 层 的 线性 函数 组 合 在 
一 起 本 质 上 也 只 有 线性 函数 的 表达 能 力 〈 例 如 ， 将 多 个 线性 方程 组 合 在 一 起 仅仅 产生 为 一 个 线性 方程 》。 因 此 ， 在 激活 
六 数 是 线性 的 悄 况 下 ， 相 比 于 蛙 隐 藏 层 神 经 网 络 ， 包 含 多 隐藏 层 的 深度 网 络 并 没有 增加 表达 能 力 。 





深度 网 络 的 优势 


为 什么 我 们 要 使 用 深度 网 络 呢 ? 使 用 深度 网 络 最 主要 的 优势 在 于 ， 它 能 以 更 加 紧凑 条 洁 的 方式 来 表达 比 浅 层 网 络 大 得 多 
的 函数 集合 。 正 式 后 说 ， 我 们 可 以 找到 一 些 函 数 ， 这 些 函 数 可 以 用 fe 层 网 络 简 党 地 表达 出 来 《这 里 的 简洁 是 指 隐 层 单 
TRAH A rf SA CR KA) 。 但 是 对 于 一 个 只 有 上 一 1 屋 的 网 络 而 言 ， 除 非 它 使 用 与 输入 单元 数目 
旺 指数 关系 的 隐 层 单元 数目 ， 奋 则 不 能 简洁 表达 这 些 函 数 。 
































举 一 个 简单 的 例子 ， 比 如 我 们 打算 构建 一 个 布尔 网 络 来 计算 n 个 输入 比特 的 奇偶 校 验 码 (或 者 进行 寞 或 运算 ) 。 假 设 
YZ rp BE P7 BY DET I "Ek" R COA “SE” 28D ， 庆 或 者 馆 辑 “与 ”和 运算。 如果 我 们 拥有 一 个 仅 
仅 由 一 个 输入 层 、 一 个 隐 层 以 及 一 个 输出 层 构 成 的 网 络 ， 那 么 该 奇人 侦 校 验 函 数 所 需要 的 市 点 数目 与 输入 层 的 规模 nh E 
指数 关系。 但 是 ， 如 果 我 们 构建 一 个 更 深 点 的 网 络 ， 那 么 这 个 网 络 的 规模 就 可 做 到 仅仅 是 ny 的 多 项 式 函数 。 

















当 处 理 对 象 是 图 像 时 ， 我 们 能 够 使 用 深度 网 络 学 习 到 “部 分 -整体 ”的 分 解 基 系 。 例 如 ， 第 一 层 可 以 学 习 如 何 将 图 像 中 
的 像素 组 合 在 一 起 来 检测 按 缘 〈 正 如 我 们 在 前 面 的 练习 中 做 的 那样 ) 。 第 二 层 可 以 将 边缘 组 合 起 来 检 训 更 长 的 轮廓 或 者 
简单 的 “目标 的 部 件 ”。 在 更 深 的 层次 上 ， 可 以 将 这 些 轮廓 进一步 组 合 起 来 以 检测 更 为 复杂 的 特征 。 














最 后 要 提 的 一 点 是 ， 大 脑 皮 层 同 样 是 分 多 层 进行 计算 的 。 例 如 视觉 图 像 在 人 脑 中 是 分 多 个 阶段 进行 处 理 的 ， 首 先是 进入 
大 脑 皮 层 的 “V1” 区 ， 然 后 紧 跟着 进入 大 脑 皮层 “V2” 区 ， 以 此 类 推 。 
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训练 深度 网 络 的 困难 


虽然 几 十 年 前 人 们 就 发 现 了 深度 网 络 在 理论 上 的 简洁 性 和 较 强 的 表达 能 力 ， 但 是 直到 最 近 ， 研 究 者 们 也 没有 在 训练 深度 
网 络 方面 取得 多 少 进步 。 问题 原因 在 于 研究 者 们 主要 使 用 的 学 习 算法 是 : 首先 随机 初始 化 深度 网 络 的 权重 ， 然 后 使 用 
有 监督 的 目标 函数 在 有 标签 的 训练 集 T (arp), D ss (ay? ym) } 上 进行 训练 。 例 如 通过 使 用 梯度 下 降 法 来 降 
低 训练 误差 。 然 而 ， 这 种 方法 通常 不 是 十 分 奏效 。 这 其 中 有 如 下 几 方 面 原因 

















数据 获取 问题 


使 用 上 面 所 到 的 方法 ， 我 们 需要 依赖 于 有 标签 的 数据 才能 进行 训练 。 然 而 有 标签 的 数据 通 第 是 稀缺 的 ， 因 此 对 于 许多 问 
里， 我 们 很 难 获得 足够 多 的 样本 来 拟 合 一 个 复杂 模型 的 参数 。 例 如 ， 考 虑 到 深度 网 络 具 有 强大 的 表达 能 力 ， 在 不 充足 的 
数据 上 进行 训练 将 会 导致 过 拟 合 。 











局 部 极 值 问题 


使 用 监督 学 习 方 法 来 对 浅 层 网 络 (只 有 一 个 隐藏 层 ) 进行 训练 通常 能 够 使 参数 收敛 到 合理 的 范围 内 。 但 是 当 用 这 种 方法 
来 训练 深度 网 络 的 时 候 ， 并 不 能 取得 很 好 的 效果 。 特 别 的 ， 使 用 监督 学 习 方 法 训练 神经 网 络 时 ， 通 常会 涉及 到 求解 一 个 
高 度 非 凸 的 优化 问题 “例如 最 小 化 训练 误差 37, [Uy (2O 一 yO) ||?， 其 中 参数 W 是 要 优化 的 参数 。 对 深度 网 络 
Mea, ， 这 种 非 凸 优化 问题 的 搜索 区 域 中 充斥 着 大 量 “ 坏 ”的 局 部 极 值 ， 因 而 使 用 梯度 下 降 法 〈 或 者 像 共 恩 梯度 下 降 法 ， 
L-BFGS 等 方法 ) 效果 并 不 好 。 




















柳 度 弥散 问题 


梯度 下 降 法 〈 以 及 相关 的 L-BFGS 算 法 等 ) 在 使 用 随机 初始 化 权重 的 深度 网 络 上 效果 不 好 的 技术 原因 是 ;: 梯度 会 变 得 非常 
小 。 具 体 而 言 ， 当 使 用 反 向 传播 方法 计算 导数 的 时 候 ， 随 着 网 络 的 深度 的 增加 ， 反 向 传播 的 梯度 〈 从 输出 层 到 网 络 的 最 
WILE) 的 幅度 值 会 急剧 地 减 小 。 结 果 就 造成 了 整体 的 损失 函数 相对 于 最 初 几 层 的 权重 的 导数 非常 小 。 这 样 ， 当 使 用 梯 
度 下 降 法 的 时 候 ， 最初 几 民 的 权重 变化 非常 缓 盆 ， 以 至 了 它们 不 能 够 从 样本 中 进行 有 效 的 学 习 。 这 种 问题 通常 被 和 

为 “梯度 的 弥散 ”. 


























与 标 度 弥 敌 问题 案 密 相关 的 问题 是 : 当 神 经 网 络 中 的 最 后 几 层 含有 足够 数量 神经 元 的 时 候 ， 可 能 单独 这 几 层 就 足以 对 有 
标签 数据 进行 建 柑 ， 而 不 用 最 初 几 层 的 帮助 。 因 此 ， 对 所 有 层 都 使 用 随机 初始 化 的 方法 训练 得 到 的 整个 网 络 的 性 能 将 会 
与 训练 得 到 的 浅 层 网 络 ( 仪 由 深度 网 络 的 最 后 几 层 组 成 的 浅 层 网 络 ) 的 性 能 相似 。 














逐 层 贷 焚 训练 方法 


那么 ， 我 们 应 该 如 何 训练 深度 网 络 呢 ? 逐 层 贫 要 训练 方法 是 取得 一 定 成 功 的 一 种 方法 。 我 们 会 在 后 面 的 章节 中 详细 阐述 
这 种 方法 的 细节 。 人 简单 来 说 ， 逐 层 贫 构 算法 的 主要 思路 是 每 次 只 训练 网 络 中 的 一 层 ， 即 我 们 衣 移 训练 一 个 只 含 一 个 隐藏 
层 的 网 络 ， 仅 当 这 层 网 络 训练 结束 之 后 才 开 始 训 练 一 个 有 两 个 隐藏 层 的 网 络 ， 以 此 关 推 。 在 每 一 步 中 ， 我 们 把 已 经 训练 
好 的 前 起 一 1] 层 固定， 然后 增加 第 k 层 〈 也 就 是 将 我 们 已 经 训练 好 的 前 一 1 的 输出 作为 输入 〉。 每 一 层 的 训练 可 
以 是 有 监督 的 〈 例 如 ， 将 每 一 步 的 分 类 误差 作为 目标 函数 ) ， 但 更 通常 使 用 无 监督 方法 (例如 目 动 编码 医 ， 我 们 会 在 后 
边 的 章节 中 给 出 细节 ) 。 这 些 各 层 单独 训练 所得 到 的 权重 被 用 来 初始 化 最 终 《〈 或 者 说 全 部 ) 的 深度 网 络 的 权重 ， 然 后 对 
整个 网 络 进行 “微调 ”《 即 把 所 有 层 放 在 一 起 来 优化 有 标签 训练 集 上 的 训练 误 普 ) . 





























逐 层 贫 爸 的 训练 方法 取得 成 功 要 归功 于 以 下 几 方 面 : 


数据 获取 
虽然 获取 有 标签 数据 的 代价 是 昂贵 的 ， 但 获取 太 曙 的 还 婚 答 数据 是 容易 的 。 自 学 习 方法 (self-taught learning) HN 
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力 在 于 它 能 通过 使 用 大 量 的 无 标签 数据 来 学 习 到 更 好 的 模型 。 有 具体 而 言 ， 访 方法 使 用 无 标签 数据 来 学 习 得 到 所 有 层 〈 不 
包括 用 于 预测 标签 的 最 终 分 类 层 ) wr) 的 最 佳 初始 权重 。 相 比 纯 监 督学 习 方 法 ， 这 种 目 学 习 方 法 能 够 利用 多 得 多 的 数 
据 ， 并 且 能 够 学 习 和 发 现 数据 中 存在 的 模式 。 因 此 该 方法 通 币 能 够 提高 分 类 器 的 性 能 。 














更 好 的 局 部 极 值 


当 用 无 标签 数据 训练 完 网 络 后 ， 相 比 于 随机 初始 化 而 言 ， 各 层 初始 权重 会 位 于 参数 空间 中 较 好 的 位 置 上 。 然 后 我 们 可 以 
从 这 些 位 置 出 发 进一步 微调 权重 。 从 经 验 上 来 说， 以 这 些 位 置 为 起 点 开始 梯度 下 降 更 有 可 能 收敛 到 比较 好 的 局 部 极 值 
扩 ， 这 是 因为 无 标签 数据 已 经 提供 了 大 量 输入 数据 中 包含 的 模式 的 先 验 信息 。 























在 下 一 节 中 ， 我 们 将 会 具体 前 述 如 何 进 行 逐 层 贫 要 训练 。 
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概述 


逐 层 贫 柳 训练 法 依次 训练 网 络 的 每 一 层 ， 进 而 预 训练 整个 深度 神经 网 络 。 在 本 节 中 ， 我 们 将 会 学 习 如 何 将 自 编 码 右 “ 栈 化 ”到 逐 
层 信 柳 训练 法 中 ， 从 而 预 训练 (或 者 说 初始 化 〉 深度 神经 网 络 的 权重 。 

















栈 式 自 编码 神经 网 络 是 一 个 由 多 层 稀疏 自 编码 器 组 成 的 神经 网 络 ， 其 前 一 层 自 编码 器 的 输出 作为 其 后 一 层 自 编码 器 的 输入 。 对 于 
一 个 n 层 栈 式 自 编码 神经 网 络 ， 我 们 沿用 自 编码 器 一 章 的 各 种 符号 ， 假 定 用 WED WED 1). pD 表示 第 大 个 自 编码 
器 对 应 的 全 人， WO pO pD 参数 ， 那 么 该 栈 式 自 编码 神经 网 络 的 编码 过 程 就 是 ， 按 照 从 前 向 后 的 顺序 执行 每 一 层 自 编码 器 
的 编码 步骤; 














ql) — f(z) 


247) — WEDO p phd 





[]38, RAIA N K AAS Ee» RMA E RN IE AAT BE E BI SE FE RR R: 


ght +) = fier) 
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FH, qQ00 ema hoe Poo ee eh, KAR S RIRA ERIN fei ds AA I8] et 2806] a A 5 reg BT RN o 


通过 将 gU). 作为 softmax 分 类 融 的 输入 特征 ， 可 以 将 栈 式 目 编码 神经 网 络 中 学 到 的 特征 用 于 分 关 问 题 。 


I| i 


— btc ela ARDOR R SRT HA To s SM HIT IER FE AR EAT VARS BO RUE AA IE VIRIS YI, E 
到 其 参数 WAD WAD ACAD 6042)， 然 后 网 络 第 一 层 将 原始 输入 转化 成 为 由 隐藏 单元 激活 值 组 成 的 向 量 〈 假 设 该 向 量 为 
A) ， 接 着 把 作为 第 二 层 的 输入 ， 继 续 训练 得 到 第 二 层 的 参数 WED WED JD bG2,2)， 最 后 ， 对 后 面 的 各 层 同样 采用 的 策 
咯 ， 即 将 前 层 的 输出 作为 下 一 层 输入 的 方式 依次 训练 。 
































对 于 上 述 训 练 方式 ， 在 训练 每 一 层 参 数 的 时 候 ， 会 固定 其 它 各 层 参 数 你 持 不 变 。 所 以 ， 如 朵 想得到 更 好 的 结果 ， 在 上 述 预 训练 过 
程 完成 之 后 ， 可 以 通过 反 同 传播 算法 同时 调整 所 有 层 的 参数 以 改善 结束， 这 个 过 程 一 般 被 称 作 “微调 〈fine-tuning) ”。 





实际 上 ， 使 用 逐 层 贫 柳 训 练 方法 将 参数 训练 到 快要 收敛 时 ， 应 该 使 用 微调 。 反 之 ， 如 采 直 接 在 随机 化 的 初始 权重 上 使 用 微调 ， 那 
么 会 得 到 不 好 的 绪 末 ， 因 为 参数 会 收敛 到 局 部 最 优 。 








如 末 你 只 对 以 分 类 为 目的 的 微调 感 兴趣 ， 那 么 懂 用 的 做 法 是 丢 挥 栈 式 目 编码 网 络 的 “解码 ” 层 ， 直 接 把 最 后 一 个 隐藏 层 的 mt 
作为 特征 输入 到 softmax 分 类 器 进行 分 类 ， 这 样 ， 分 类 器 Csoftmax) 的 分 类 错误 的 梯度 值 就 可 以 直接 反 向 传播 给 编码 层 了 。 
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其 体 实 例 
让 我 们 来 看 个 具体 的 例子 ， 假 设 你 想 要 训练 一 个 包含 两 个 隐 含 层 的 栈 式 自 编码 网 络 ， 用 来 进行 MNIST 手 写 数字 分 类 (这 将 会 是 你 的 


下 一 个 练习 ) . 首先 ， 你 需要 用 原始 输入 alk) 训练 第 一 个 上 自 编码 器 ， 它 能 够 学 习 得 到 原始 输入 的 一 阶 特征 表示 (DE) (如 下 图 
所 示 ) 。 


RY f 


WARA S 
YA 
ilo 


级 





Input Features | Output 


接着 ， 你 再 要 把 原始 数据 输入 到 上 述 训练 好 的 秘 臣 目 编码 器 中 ， 对 于 每 一 个 输入 ztej， 都 可 以 得 到 它 对 应 的 一 阶 特征 表示 六 (AR) 
。 然 后 你 再 用 这 些 一 阶 特征 作为 另 一 个 稀 玻 目 编 码 器 的 输入 ， 使 用 它们 来 学 习 二 阶 特征 AE). CR Alias) 
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Input Features Il Output 
(Features |) 





IRE, FRE Brae tik aA SS UI AR E — EXPL E fd ds. RUE SY SONA) 对 应 的 二 阶 特征 激活 值 nO). Be POR. Mal 
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P(y=0 | x) 
P(y=1 | x) 
> Ply =2 | x) 





Input Softmax 
(Features Il) classifier 








如 下 图 所 示 ， 最 终 ， 你 可 以 将 这 三 层 结合 起 来 构建 一 个 包含 两 个 隐藏 层 和 一 个 最 终 softmax 分 类 器 层 的 栈 式 自 编码 网 络 ， 这 个 网 络 
能 够 如 你 所 愿 地 对 MNIST 数 字 进 行 分 类 。 
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P(y = 0 | x) 
P(y=1 | x) 
Ply =2 | x) 





Input Features | Features II Softmax 
classifier 
讨论 





栈 式 目 编码 神经 网 络 具 有 强大 的 表达 能 力 及 深度 神经 网 络 的 所 有 优 扩 。 


更 进一步 ， 它 通 单 能够 获取 到 和 输入 的 “层次 型 分 组 ”或 者 “部 分 -整体 分 解 ” 结 构 。 为 了 弄 清 这 一 点 ， 回 顾 一 下 ， 目 编码 硕 倾 网 于 
学 习 得 到 能 更 好 地 表示 输入 数据 的 特征 。 因 此 ， 栈 式 上 自 编 码 神经 网 络 的 第 一 层 会 学 习 得 到 原始 输入 的 一 阶 特 征 〈 比 如 图 厂 里 的 边 
缘 ) ， 第 二 层 会 学 习 得 到 二 阶 特征 ， 访 特征 对 应 一 阶 符 征 里 包含 的 一 些 模式 (比如 在 构成 轮廓 或 者 角 扣 时 ， 什 么 样 的 边缘 会 共 
Ho 。 栈 却 目 编码 神经 网 络 的 更 高 层 还 会 学 到 更 高 阶 的 特征 。 























举 个 例子 ， 如 果 网 络 的 输入 数据 是 图 像 ， 网 络 的 第 一 层 会 学 习 如 何 去 识 别 边 ， 第 二 层 一 般 会 学 习 如 何 去 组 合 边 ， 从 而 构成 轮廓 、 
角 等 。 更 局 层 会 学 习 如 何 去 组 合 更 形象 上 且 有 意义 的 特征 。 例 如 ， 如 末 输 入 数据 集 包 含 人 脸 图 像 ， 更 高 层 会 学 习 如 何 识 别 或 组 合 眼 
Hs Se. Base Alias E o 
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微调 是 深度 学 习 中 的 种 用 策略 ， 可 以 大 幅 提升 一 个 栈 式 目 编码 神经 网 络 的 性 能 表现 。 从 更 高 的 视角 来 讲 ， 微 调 将 栈 式 目 编码 神经 网 络 的 所 有 层 视 为 一 
个 模型 ， 这 样 在 每 次 迭代 中 ， 网 络 中 所 有 的 权重 值 都 可 以 被 优化 。 


— B v Ws 


幸运 的 是 ， 实 施 微调 栈 式 目 编 码 神经 网 络 所 需 的 工具 都 已 齐备 ! 73 SERERE RENA BE AL ite AE H Bit HS HP VO HY ER 
传播 算法 。 因 为 反 同 传播 算法 可 以 延伸 应 用 到 任意 多 层 ， 所 以 事实 上 ， 该 算法 对 任意 多 层 的 栈 式 目 编码 神经 网 络 都 适用 。 


使 用 反问 传播 法 进行 做 调 


为 方便 读者 ， 以 下 我 们 简要 描述 如 何 实施 反问 传播 算法 : 

















1， 进 行 一 次 前 馈 传递 ， 对 Ly E. La 层 直到 输出 层 工 ,,， 使 用 前 向 传播 步 怠 中 定义 的 公式 计算 各 层 上 的 激活 值 (激励 响应 )。 


2， 对 输出 层 Ou 层 ) ， 令 
5) — (Van) e (2) 
( 当 使 用 softmax 分 类 器 时 ，softmax 层 满足 : VJ =O (I — P) HPT 为 输入 数据 对 应 的 类 别 标签 ，P 为 条 件 概率 向 量 。 ) 


3. X l=nj—1,n; 2n —3,...- 


4 


5 一 ((WO)P 5€*1)) - f(z) 


4， 计 算 所 需 的 偏 导数 : 
V wo J(W, b; x, y) = SHa HT, 
Vid (Y, b; T. y) = gero 


T 


J(W, b) = > W, b; x, y) 








dE. RATT UUN E sof tmax 分 类 器 是 附加 上 的 一 层 ， 但 是 其 求 导 过 程 ris ITE 具体 地 说 ， 网 络 “ 最 后 一 层 ”的 特征 会 进入 softmax 分 类 i 
; 器 。 所 以 ， 第 二 步 中 的 导数 由 GO 二 一 (Van J) e f'(200) 计算 , 其 中 VI = 0" (I — P) 
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前 馈 传 递 feedforward pass 


BURL (可 以 考虑 翻译 为 “ 油 励 啊 应 ”或 “ 啊 应 ”) activation 
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Overview 


In this exercise, you will use a stacked autoencoder for digit classification. This exercise is very similar 
to the self-taught learning exercise, in which we trained a digit classifier using a autoencoder layer 
followed by a softmax layer. The only difference in this exercise is that we will be using two autoencoder 
layers instead of one and further finetune the two layers. 


The code you have already implemented will allow you to stack various layers and perform layer-wise 
training. However, to perform fine-tuning, you will need to implement backpropogation through both layers. 
We will see that fine-tuning significantly improves the model’ s performance. 


In the file stackedae exercise. zip (http://ufldl. stanford. edu/wiki/resources/stackedae exercise. zip) , we 
have provided some starter code. You will need to complete the code in stackedAECost.m, stackedAEPredict.m 
and stackedAEExercise.m. We have also provided params2stack.m and stack2params.m which you might find helpful 
in constructing deep networks. 


Dependencies 


The following additional files are required for this exercise: 
= MNIST Dataset (http: //yann. lecun. com/exdb/mnist/) 
mn Support functions for loading MNIST in Matlab 
=» Starter Code (stackedae exercise. zip) (http://ufldl. stanford. edu/wiki/resources/stackedae exercise. zip) 


You will also need your code from the following exercises: 


» Exercise:Sparse Autoencoder 

» Exercise: Vectorization 

=m Exercise:softmax Regression 

mn Exercise:Self-Taught Learning 


If you have not completed the exercises listed above, we strongly suggest you complete them first. 
Step 0: Initialize constants and parameters 


Open stackedAEExercise.m. In this step, we set meta-parameters to the same values that were used in previous 
exercise, which should produce reasonable results. You may to modify the meta-parameters if you wish. 


Step 1: Train the data on the first stacked autoencoder 


Train the first autoencoder on the training images to obtain its parameters. This step is identical to the 
corresponding step in the sparse autoencoder and STL assignments, complete this part of the code so as to 
learn a first layer of features using your sparseAutoencoderCost.m and minFunc. 


wwaibbt.com [1 EO ET E] ET E] 0 





wbx 


Deep Learning - Ng 
134-8 Exercise: m plem entdeep net orks fordigitclass ification -U fld 1 


Step 2: Train the data on the second stacked autoencoder 


We first forward propagate the training set through the first autoencoder (using feedForwardAutoencoder.m that 
you completed in Exercise:Self-Taught Learning) to obtain hidden unit activations. These activations are 
then used to train the second sparse autoencoder. Since this is just an adapted application of a standard 
autoencoder, it should run similarly with the first. Complete this part of the code so as to learn a first 
layer of features using your sparseAutoencoderCost.m and minFunc. 


This part of the exercise demonstrates the idea of greedy layerwise training with the same learning 
algorithm reapplied multiple times. 


Step 3: Train the softmax classifier on the L2 features 


Next, continue to forward propagate the L1 features through the second autoencoder (using 
feedForwardAutoencoder.m) to obtain the L2 hidden unit activations. These activations are then used to train 
the softmax classifier. You can either use softmaxTrain.m or directly use softmaxCost.m that you completed in 
Exercise:Softmax Regression to complete this part of the assignment. 


Step 4: Implement fine-tuning 


To implement fine tuning, we need to consider all three layers as a single model. Implement stackedAECost. m 
to return the cost and gradient of the model. The cost function should be as defined as the log likelihood 
and a gradient decay term. The gradient should be computed using back-propagation as discussed earlier. The 
predictions should consist of the activations of the output layer of the softmax model. 


To help you check that your implementation is correct, you should also check your gradients on a synthetic 
small dataset. We have implemented checkStackedAECost.m to help you check your gradients. If this checks 
passes, you will have implemented fine-tuning correctly. 


Note: When adding the weight decay term to the cost, you should regularize only the softmax weights (do not 
regularize the weights that compute the hidden layer activations). 


Implementation Tip: It is always a good idea to implement the code modularly and check (the gradient of) 
each part of the code before writing the more complicated parts. 


Step 5: Test the model 


Finally, you will need to classify with this model; complete the code in stackedAEPredict.m to classify using 
the stacked autoencoder with a classification layer. 


After completing these steps, running the entire script in stackedAETrain.m will perform layer-wise training 
of the stacked autoencoder, finetune the model, and measure its performance on the test set. If you've done 
all the steps correctly, you should get an accuracy of about 87.7% before finetuning and 97.6% after 
finetuning (for the 10-way classification problem). 


From Self-Taught Learning to Deep Networks | Deep Networks: Overview | Stacked Autoencoders | Fine-tuning Stacked AEs | 
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fiii H Wa Be AWAIT, THERA, MARU RH. 从 前 面 《神经 网 络 ) A Amb dx n] 
知 ， 位 于 神经 网 络 中 的 神经 元 都 采用 相同 的 激励 函数 。 在 注解 中 ， 我 们 修改 了 自 编码 器 定义 ， 使 得 某 些 神 经 
元 采用 不 同 的 激励 函数 。 这 样 得 到 的 模型 更 容易 应 用 ， 而 且 模 型 对 参数 的 变化 也 更 为 重 棒 。 





回想 一 下 ， 输 出 层 神 经 元 计算 公式 如 下 : 
28) — WDD + 52) 
a 一 f(z®)) 


其 中 aS) 是 输出 ， 在 自 编码 器 中 ，a 近似 重 构 了 输入 x = a, 


s 型 激励 函数 输出 范围 是 [0, 1]， 当 tc) 采用 该 激励 函数 时 ， 就 要 对 输入 限制 或 缩放 ， 使 其 位 于 [0, 1] 
范围 中 。 一 些 数 据 集 ， 比 如 MNIST， 能 方便 将 输出 缩放 到 [0, 1] 中 ,但 是 很 难 满足 对 输入 值 的 要 求 。 比 如 ， 
PCA 白化 处 理 的 输入 并 不 满足 [0,1] 范围 要 求 ， 也 不 清楚 是 否 有 最 好 的 办 法 可 以 将 数据 缩放 到 特定 范围 中 。 


ZTE AA 3 m 


设 定 aC = 7°) 可 以 很 简单 的 解决 上 述 问 题 。 从 形式 上 来 看 ， 就 是 输出 端 使 用 恒 等 函 数 f(z) = z 作为 激 
励 函 数 ， 于 是 有 aO = f(z43)) = 2z43) 。 我 们 称 该 特殊 的 激励 函数 为 线性 激励 函数 〈 称 为 恒 等 激励 函数 
可 能 更 好 些 ) 。 

需要 注意 ， 神 经 网 络 中 隐 含 层 的 神经 元 依然 使 用 S 型 (或 者 tanh) 激励 函数 。 这 样 隐 含 单元 的 激励 公式 为 
a9 — g(W) y p p) ,其 中 of-) ES 型 函数 ，x AMA, WO 和 bY 分 别 是 隐 单 元 的 权重 和 偏差 
项 。 我 们 仅 在 输出 层 中 使 用 线性 激励 函数 。 

一 个 S 型 或 tanh 隐 含 层 以 及 线性 输出 层 构 成 的 自 编码 器 ， 我 们 称 为 线性 解码 器 。 


在 这 个 线性 解码 器 模型 中 ， aO — 8) pwq+ p23)。 因 为 输出 o 是 隐 单 元 激励 输出 的 线性 函 


数 ， 改 变 W ， 可 以 使 输出 值 aC? 大 于 1 或 者 小 于 0。 这 使 得 我 们 可 以 用 实 值 输入 来 训练 稀疏 自 编码 
种 ， 避 免 预 乞 缩放 样本 到 给 定 范 围 。 


随 腹 输出 单元 的 激励 函数 的 改变 ， 这 个 输出 单元 梯度 也 相应 变化 。 回 顾 之 前 每 一 个 输出 单元 误 兰 项 定义 为 : 
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其 中 y = x ADHERE, p Aisa, f(-) 是 激励 函数 . AA ESI C URBAN f(z) = 
z, X f (z) = 1， 所 以 上 述 公 式 可 以 简化 为 

















69 — (yi — &j) 


MA. VGA SHE RAK BSE RAM : 
5) 一 ((W 97567) s Pe) 


因为 隐 含 层 采用 一 个 S 型 (或 tanh) 的 激励 函数 f, EERARP, f'(-) KRE SA (或 tanh) 函数 的 
Era 


FH BR SC] HR 
Zk TERES Linear Decoders 
ME atg Sparse Autoencoder 
输入 层 input layer 
ERA E hidden layer 
输出 层 output layer 
神经 元 neuron 
神经 网 络 neural network 
H gnir autoencoder 
油 励 函数 activation function 
鲁 棒 robust 
SFU sigmoid activation function 
tanh J EKI 
线性 激励 函数 linear activation function 
TESEU PKI 


KE hidden unit 


IN tanh function 


数 identity activation function 


权重 weight 
Nell error term 
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Exercise:Learning color features with Sparse 
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l. 
1.5 Step 2: Learn features on small patches 


Learning color features with Sparse Autoencoders 


In this exercise, you will implement a linear decoder (a sparse autoencoder whose output layer uses a 
linear activation function). You will then apply it to learn features on color images from the STL-10 
dataset. These features will be used in an later exercise on convolution and pooling for classifying STL-10 
images. 


In the file linear decoder exercise.zip (http://ufldl.stanford.edu/wiki/resources/linear decoder exercise.zip) we have 
provided some starter code. You should write your code at the places indicated “YOUR CODE HERE” in the 
files. 








For this exercise, you will need to copy and modify sparseAutoencoderCost.m from the sparse autoencoder 
exercise. 


Dependencies 


You will need: 
mn sparseAutoencoderCost.m (and related functions) from Exercise:Sparse Autoencoder 
The following additional file is also required for this exercise: 


= Sampled 8x8 patches from the STL-10 dataset (stllO patches 100k. zip) 
(http://ufldl. stanford. edu/wiki/resources/stl10 patches 100k. zip) 


If you have not completed the exercise listed above, we strongly suggest you complete it first. 


Learning from color image patches 


In all the exercises so far, you have been working only with grayscale images. In this exercise, you will 
get to work with RGB color images for the first time. 


Conveniently, the fact that an image has three color channels (RGB), rather than a single gray channel, 
presents little difficulty for the sparse autoencoder. You can just combine the intensities from all the 
color channels for the pixels into one long vector, as if you were working with a grayscale image with 3x 
the number of pixels as the original image. 


Step 0: Initialization 
In this step, we initialize some parameters used in the exercise (see starter code for details). 
Step 1: Modify your sparse autoencoder to use a linear decoder 


Copy sparseAutoencoderCost.m to the directory for this exercise and rename it to sparseAutoencoderLinearCost. m. 


Rename the function sparseAutoencoderCost in the file to sparseAutoencoderLinearCost, and modify it to use a 
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linear decoder. In particular, you should change the cost and gradients returned to reflect the change from 
a sigmoid to a linear decoder. After making this change, check your gradients to ensure that they are 
correct. 


Step 2: Learn features on small patches 


You will now use your sparse autoencoder to learn features on a set of 100,000 small 8x8 patches sampled 
from the larger 96x96 STL-10 images (The STL-10 dataset (http://www. stanford. edu/ acoates//st110/) 
comprises 5000 training and 8000 test examples, with each example being a 96x96 labelled color image 
belonging to one of ten classes: airplane, bird, car, cat, deer, dog, horse, monkey, ship, truck.) 


The code provided in this step trains your sparse autoencoder for 400 iterations with the default 
parameters initialized in step 0. This should take around 45 minutes. Your sparse autoencoder should learn 
features which when visualized, look like edges and “opponent colors,” as in the figure below. 














































If your parameters are improperly tuned (the default parameters should work), or if your implementation of 
the autoencoder is buggy, you might instead get images that look like one of the following: 
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The learned features will be saved to STL10Features. mat, which will be used in the later exercise on 
convolution and pooling. 
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概述 


前 面 的 练习 中 ， 解 决 了 一 些 有 关 低 分 辩 率 图 像 的 问题 ， 比 如 : 小 块 图 像 ， 手 写 数字 小 幅 图 像 等 。 在 这 部 分 中 ， 我 们 将 把 
己 知 的 方法 扩展 到 实际 应 用 中 更 加 第 见 的 大 图 像 数 据 集 。 











全 联通 网 络 


在 稀疏 自 编码 章节 中 ， 我 们 介绍 了 把 输入 层 和 隐 含 层 进 行 “ 全 连接 ”的 设计 。 从 计算 的 角度 来 讲 ， 在 其 他 章节 中 曾经 用 
过 的 相对 较 小 的 图 像 〈 如 在 稀疏 自 编 码 的 作业 中 用 到 过 的 8x8 的 小 块 图 像 ， 在 MNIST 数 据 集中 用 到 过 的 28x28 的 小 块 图 
像 ) ， 从 整 幅 图 像 中 计算 特征 是 可 行 的 。 但 是 ， 如 果 是 更 大 的 图 像 〈 如 96x96 的 图 像 ) ， 要 通过 这 种 全 联通 网 络 的 这 
种 方法 来 学 习 整 幅 图 像 上 的 特征 ， 从 计算 角度 而 言 ， 将 变 得 非常 耗 时 。 你 需要 设计 10 Hy 4 次 方 (=10000) 个 输入 单 
元 ， 假 设 你 要 学 习 100 MERE, WARA 10 的 6 次 方 个 参数 需要 去 学 习 。 与 28x28 的 小 块 图 像 相 比较 ， 96x96 的 
图 像 使 用 前 向 输送 或 者 后 向 传导 的 计算 方式 ， 计 算 过 程 也 会 慢 10 的 2 次 方 (=100) fi. 














部 分 联通 网 络 


解决 这 类 问题 的 一 种 简单 方法 是 对 隐 舍 单元 和 输入 单元 间 的 连接 加 以 限制 : 每 个 隐 合 单元 仅仅 只 能 连接 输入 单元 的 一 部 
分 。 例 如 ， 每 个 隐 合 单元 仅仅 连接 得 入 图 像 的 一 小 户 相 邻 区 域 。《 对 于 不 同 于 图 像 得 入 的 输入 形式 ， 也 会 有 一 些 特 别 的 
连接 到 单 隐 含 层 的 输入 信号 “连接 区 域 ”选择 方式 。 如 音频 作为 一 种 信号 输入 方式 ， 一 个 隐 含 单元 所 需要 连接 的 输入 单 
元 的 子 集 ， 可 能 仅仅 是 一 段 首 频 输入 所 对 应 的 某 个 时 间 段 上 的 信号 。) 


























网 络 部 分 连通 的 思想 ， 也 是 受 司 发 于 生物 学 里 面 的 视 贫 系统 结构 。 视 觉 度 层 的 神经 元 就 是 局 部 接受 信息 的 〈《 即 这 些 神 经 
元 只 啊 应 茶 些 特定 区 域 的 刺激 ) 。 
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特征 也 能 用 在 另 一 部 分 上 ， 所 以 对 于 这 个 图 像 上 的 所 有 位 置 ， 我 们 都 能 使 用 同样 的 学 习 特 征 。 











更 恰当 的 解释 是 ， 当 从 一 个 大 尺寸 图 像 中 随机 选取 一 小 块 ， 比 如 说 8x8 作为 样本 ， 并 且 从 这 个 小 块 样本 中 学 习 到 了 一 
些 特征 ， 这 时 我 们 可 以 把 从 这 个 8x8 样本 中 学 习 a 到 的 特征 作为 探测 费 ， 应 用 到 这 个 图 像 的 任意 地 方 中 去 。 特 别 是， 我 
们 可 以 用 从 8x8 样本 中 所 学 习 到 的 特征 跟 原本 的 大 尺寸 图 像 作 若 积 ， 从 而 对 这 个 大 尺寸 图 像 上 的 任 一 位 置 获得 一 个 不 
同 特征 的 激活 值 。 








下 面 给 出 一 个 具体 的 例子 : 假设 你 已 经 从 一 个 96x90 RR eee DEBIT 8x8 的 样本 所 具有 的 特征 ， 假 设 这 古 
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由 有 100 “She EUH) H mRNA. H TARERE, mX) 96x96 的 图 像 的 每 个 8x8 的 小 块 图 像 区 域 都 进行 
苍 积 运算 。 也 就 是 说 ， 抽 取 8x8 的 小 块 区 域 ， 并 且 从 起 始 坐 标 开始 依次 标记 为 (1，1) ， (1，2) ，...， 一 直到 
(89，89) ， 然 后 对 抽取 的 区 域 逐 个 运行 训练 过 的 稀 芷 目 编码 来 得 到 特征 的 激活 值 。 在 这 个 例子 里 ， 显 然 可 以 得 到 100 
个 集合 ， 每 个 集合 售 有 89x89 FERRE o 





Convolved 
Feature 


Image 


假设 给 定 了 rox e 的 大 尺寸 图 像 ， 将 其 定义 为 xlarse。 首 先 通过 从 大 尺寸 图 像 中 抽取 的 ma x b. 的 小 尺寸 图 像样 本 
Kemal 训练 稀疏 自 编码 ， 计 算 f = o QU x, i; +b) Co 是 一 个 sigmoid HRM) 得 到 了 k 个 特征 ， 其 中 
WO) 和 pO) 是 可 视 层 单元 和 隐 含 单元 之 间 的 权重 和 偏差 值 。 对 于 每 一 个 ox b 大 小 的 小 图 像 xs， 计 算出 对 应 的 值 


f。= o (Ux, + bY), IXE foonvolved 值 做 卷 积 ， 就 可 以 得 到 kx (r—a+1) x (c—b +1) 个 卷 积 后 的 特 
征 的 矩阵 。 


在 接 下 来 的 章节 里 ， 我 们 会 更 进一步 描述 如 何 把 这 些 特征 汇总 到 一 起 以 得 到 一 些 更 利于 分 类 的 特征 。 


FH de CXT HR 
全 联通 网 络 Full Connected Networks 
稀 朴 编码 Sparse Autoencoder 
前 问 输送 Feedforward 
反 同 传播 Backpropagation 
部 分 联通 网 络 Locally Connected Networks 
连接 区 域 Contiguous Groups 
视觉 皮层 Visual Cortex 
卷 积 Convolution 
固有 特征 Stationary 
池 化 Pool 
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池 化 : 概述 


在 通过 大 积 获 得 了 特征 (features) 之 后 ， 下 一 步 我 们 希望 利用 这 些 特征 去 做 分 类 。 理 论 上 讲 ， 和 人 人们 可 以 用 所 有 提取 得 到 的 特 
征 去 训练 分 类 硕 ， 例 如 softmax 分 类 占 ， 但 这 样 做 面临 计算 量 的 挑战 。 例 如 ; 对 于 一 个 96X96 像 系 的 图 像 ， 假 设 我 们 已 经 学 
习 得 到 了 400 个 定义 在 8X8 输 入 上 的 特征 ， 每 一 个 特征 和 图 像 郑 积 都 会 得 到 一 个 (96 — 8 + 1) * (96 一 8 + 1) = 7921 维 的 
卷 积 特征 ， 由 于 有 400 个 特征 ， 所 以 每 个 样 例 (example) 都 会 得 到 一 个 89° * 400 = 3,168,400 维 的 卷 积 特 征 向 量 。 学 习 一 
个 拥有 超过 3 白 万 特征 输入 的 分 类 右 十 分 不 便 ， 并 且 容 易 出 现 过 拟 合 (over-fitting). 











为 了 解决 这 个 问题 ， 首 先 回忆 一 下 ， 我 们 之 所 以 决定 使 用 登 积 后 的 特征 是 因为 图 像 具 有 一 种 “ 疼 态 性 ”的 属性 ， 这 也 融 意 味 痢 
在 一 个 图 像 区 域 有 用 的 特征 极 有 可 能 在 为 一 个 区 域 同样 适用 。 因 此 ， 为 了 揪 述 大 的 图 像 ， 一 个 很 自然 的 想法 束 古 对 不 同位 置 的 
特征 进行 聚合 统计 ， 例 如 ， 人 人 们 可 以 计算 图 像 一 个 区 域 上 的 茶 个 特定 特征 的 平均 值 (或 最 大 值 ) 。 这 些 概要 统计 特征 不 仅 具有 低 
得 多 的 维度 〈 相 比 使 用 所 有 提取 得 到 的 特征 ) ， 同 时 还 会 改善 结果 (不 容易 过 拟 合 ) 。 这 种 肾 合 的 操作 束 叫 做 池 化 (pooling), A 
时 也 称 为 平均 池 化 或 者 最 大 池 化 (取决 于 计算 池 化 的 方法 ) 。 











下 图 显示 池 化 如 何 应 用 于 一 个 图 像 的 四 块 不 重合 区 域 。 
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平移 不 变性 (translation invariant)。 这 就 意味 着 即使 图 像 经 历 了 一 个 小 的 平移 之 后 ， 依 然 会 产生 相同 的 ( 池 化 的 特征 。 
在 很 多 任务 中 〈 例 如 物体 检测 、 声 音 识别 ) ， 我 们 都 更 而 望 得 到 具有 平移 不 变性 的 特征 ， 因 为 即使 图 像 经 过 了 平移 ， 样 例 ( 图 像 ) 
的 标记 仍然 保持 不 变 。 例 如 ， 如 果 你 处 理 一 个 MNIST 数 据 集 的 数字 ， 把 它 问 左 侧 或 右 侧 平移 ， 那 么 不 论 最 终 的 位 置 在 哪里 ， 你 都 
会 期 望 你 的 分 类 器 仍然 能 够 精确 地 将 其 分 类 为 相同 的 数字 。 


(x*MNIST 是 一 个 手写 数字 库 识 别 库 : http://yann. lecun. com/exdb/mnist/) 









































形式 化 描述 


形式 上 ， 在 获取 到 我 们 前 面 讨论 过 的 卷 积 特征 后 ， 我 们 要 确定 池 化 区 域 的 大 小 (假定 为 ?ma x m)» ， 来 池 化 我 们 的 郑 积 特征 。 那 
么 ， 我 们 把 卷 积 特征 划分 到 数 个 大 小 为 m x nn 的 不 相交 区 域 上 ， 然 后 用 这 些 区 域 的 平均 (或 最 大 ) 特 征 来 获取 池 化 后 的 卷 积 特 
征 。 这 些 池 化 后 的 特征 便 可 以 用 来 做 分 类 。 
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平移 不 变性 translation invariant 
池 化 pooling 
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Exercise:Convolution and Pooling 
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Convolution and Pooling 


In this exercise you will use the features you learned on 8x8 patches sampled from 
images from the STL-10 dataset in the earlier exercise on linear decoders for 
classifying images from a reduced STL-10 dataset applying convolution and pooling. 
The reduced STL-10 dataset comprises 64x64 images from 4 classes (airplane, car, 
cat, dog). 


In the file cnn exercise.zip (http://ufldl. stanford. edu/wiki/resources/cnn exercise.zip) We 
have provided some starter code. You should write your code at the places indicated 
“YOUR CODE HERE” in the files. 


For this exercise, you will need to modify cnnConvolve.m and cnnPool.m. 
Dependencies 


The following additional files are required for this exercise: 


= A subset of the STLIO Dataset (stlSubset. zip) 
(http://ufldl. stanford. edu/wiki/resources/stlSubset. zip) 
=» Starter Code (cnn exercise. zip) 
(http://ufldl. stanford. edu/wiki/resources/cnn exercise. zip) 


You will also need: 


= sparseAutoencoderLinear.m or your saved features from Exercise:Learning color 
features with Sparse Autoencoders 
= feedForwardAutoencoder.m (and related functions) from Exercise:Self-Taught 
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Learning 
= softmaxTrain.m (and related functions) from Exercise:Softmax Regression 


If you have not completed the exercises listed above, we strongly suggest you 
complete them first. 


Step 1: Load learned features 


In this step, you will use the features from Exercise:Learning color features with 
Sparse Autoencoders. If you have completed that exercise, you can load the color 
features that were previously saved. To verify that the features are good, the 
visualized features should look like the following: 
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Step 2: Implement and test convolution and pooling 


In this step, you will implement convolution and pooling, and test them on a small 
part of the data set to ensure that you have implemented these two functions 
correctly. In the next step, you will actually convolve and pool the features with 
the STL-10 images. 


Step 2a: Implement convolution 


Implement convolution, as described in feature extraction using convolution, in the 
function ennConvolve in ennConvolve.m. Implementing convolution is somewhat involved, 
so we will guide you through the process below. 


First, we want to compute o (Wx(, e) + b) for all valid (r,c) (valid meaning that 


the entire 8x8 patch is contained within the image; this is as opposed to a full 
convolution, which allows the patch to extend outside the image, with the area 
outside the image assumed to be 0), where W and b are the learned weights and biases 
from the input layer to the hidden layer, and Xu) LS the 8x8 patch with the upper 


left corner at (r,c). To accomplish this, one naive method is to loop over all such 
patches and compute o (Wx(, e) + b) for each of them; while this is fine in theory, 
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it can very slow. Hence, we usually use Matlab’ s built in convolution functions, 
which are well optimized. 


Observe that the convolution above can be broken down into the following three small 
Steps. First, Compute: Wier Tor all (r,c). Next, add b to all the computed values. 


Finally, apply the sigmoid function to the resulting values. This doesn t seem to 
buy you anything, since the first step still requires a loop. However, you can 
replace the loop in the first step with one of MATLAB' s optimized convolution 
functions, conv2, speeding up the process significantly. 


However, there are two important points to note in using conv2. 


First, conv2 performs a 2-D convolution, but you have 5 “dimensions - image number, 
feature number, row of image, column of image, and (color) channel of image - that 
you want to convolve over. Because of this, you will have to convolve each feature 
and image channel separately for each image, using the row and column of the image 
as the 2 dimensions you convolve over. This means that you will need three outer 
loops over the image number imageNum, feature number featureNum, and the channel 
number of the image channel. Inside the three nested for-loops, you will perform a 
conv2 2-D convolution, using the weight matrix for the featureNum-th feature and 
channel-th channel, and the image matrix for the imageNum-th image. 


Second, because of the mathematical definition of convolution, the feature matrix 
must be “flipped” before passing it to conv2. The following implementation tip 
explains the “flipping” of feature matrices when using MATLAB’ s convolution 
functions: 


Implementation tip: Using conv2 and convn 


Because the mathematical definition of convolution involves “flipping” the matrix 

to convolve with (reversing its rows and its columns), to use MATLAB’ s convolution 
functions, you must first “flip” the weight matrix so that when MATLAB “flips” it 

according to the mathematical definition the entries will be at the correct place. 
For example, suppose you wanted to convolve two matrices image (a large image) and 
w (the feature) using conv2(image, W, and W is a 3x3 matrix as below: 


123 
W=ļ4 5 6 
78 9 


If you use conv2(image, W), MATLAB will first “flip” W, reversing its rows and 
columns, before convolving W with image, as below: 


l 2 3 9 8 7 
4 5 6 [6.5 4 
| 8 Y 9 2 1 


If the original layout of W was correct, after flipping, it would be incorrect. 
For the layout to be correct after flipping, you will have to flip W before 
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passing it into conv2, so that after MATLAB flips W in conv2, the layout will be 
correct. For conv2, this means reversing the rows and columns, which can be done 
with flipud and fliplr, as shown below: 


ett lll eee 1 
I 
l 


% Flip W for use in conv2 
W = flipud(fliplr(W)); 





Next, to each of the convolvedFeatures, you should then add b, the corresponding bias 
for the featureNum-th feature. 


However, there is one additional complication. If we had not done any preprocessing 
of the input patches, you could just follow the procedure as described above, and 
apply the sigmoid function to obtain the convolved features, and we'd be done. 
However, because you preprocessed the patches before learning features on them, you 
must also apply the same preprocessing steps to the convolved patches to get the 
correct feature activations. 


In particular, you did the following to the patches: 


]. subtract the mean patch, meanPatch to zero the mean of the patches 
2. ZCA whiten using the whitening matrix ZCAWhite. 


These same three steps must also be applied to the input image patches. 


Taking the preprocessing steps into account, the feature activations that you should 
compute is a(W(T (2 = TJ) | b) where T is the whitening matrix and ;p is the mean 
patch. Expanding this, you obtain a(WT x 一 W TF 
should convolve the images with WT rather than W as earlier, and you should add 
(b —WTz) rather than just b to convolvedFeatures, before finally applying the 





b) which suggests that you 


sigmoid function. 
Step 2b: Check your convolution 


We have provided some code for you to check that you have done the convolution 
correctly. The code randomly checks the convolved values for a number of (feature, 
row, column) tuples by computing the feature activations using feedForwardAutoencoder 
for the selected features and patches directly using the sparse autoencoder. 


Step 2c: Pooling 


Implement pooling in the function cnnPool in cnnPool.m. You should implement mean 
pooling (i.e., averaging over feature responses) for this part. 


Step 2d: Check your pooling 


We have provided some code for you to check that you have done the pooling 
correctly. The code runs cnnPool against a test matrix to see if it produces the 
expected result. 


Step 3: Convolve and pool with the dataset 
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In this step, you will convolve each of the features you learned with the full 64x64 
images from the STL-10 dataset to obtain the convolved features for both the 
training and test sets. You will then pool the convolved features to obtain the 
pooled features for both training and test sets. The pooled features for the 
training set will be used to train your classifier, which you can then test on the 
test set. 


Because the convolved features matrix is very large, the code provided does the 
convolution and pooling 50 features at a time to avoid running out of memory. 


Step 4: Use pooled features for classification 


In this step, you will use the pooled features to train a softmax classifier to map 
the pooled features to the class labels. The code in this section uses softmaxTrain 
from the softmax exercise to train a softmax classifier on the pooled features for 
500 iterations, which should take around a few minutes. 


Step 5: Test classifier 


Now that you have a trained softmax classifier, you can see how well it performs on 

the test set. These pooled features for the test set will be run through the softmax 
classifier, and the accuracy of the predictions will be computed. You should expect 

to get an accuracy of around 8096. 


Retrieved from 
"http: //deeplearning. stanford. edu/wiki/index. php/Exercise:Convolution and Pooling” 


» This page was last modified on 3 June 2011, at 19:16. 


ww ai bbt. com [1 [1 0 ET E] ET E] 
deeplamnmng.stanford.edu/w kindex.php/Exercise:Convoliton and Poolng 5⁄5 
wbx 





